2025年IDC全球半年度人工智能基础设施追踪报告显示,AI基础设施市场正在飞速发展,到2028年,开支将超过2000亿美元。2024年上半年,各组织在用于AI部署的计算和存储硬件基础设施上的开支同比增长了97%,达到474亿美元。
自2019年以来,AI基础设施市场一直保持两位数增长,主要是用于AI部署的服务器投资。2024年上半年,服务器占总开支的95%,比去年同期增长了105%。随着超大规模企业、云服务提供商和数字服务提供商扩展其基础设施能力,部署在云和共享环境中的AI基础设施占2024年上半年AI服务器总支出的72%。相比之下,传统企业在采用本地AI基础设施方面远远落后。
其中,AI基础设施中的存储开支由管理训练AI模型所需的大型数据集以及训练、检查点和推理阶段数据存储库的存储需求推动。这一类别在2024年上半年同比增长18%,其中40%的支出来自云部署。

以下为AI基础设施的趋势观察:
首先是模型层创新:模型层的创新正成为AI基础设施堆栈中最动态、竞争最激烈的层次。基础模型已成为新的“石油”,并且由于其战略重要性,堆栈中的胜者可能会定义未来几年的下游应用。
因此,我们看到在模型层的活动爆炸性增长,从开源到小型语言模型,大量资本和活动集中在通过数据、模型并行、混合模态等方式扩展基于transformer的模型,或是尝试推动这些模型在性能属性上的提升(例如成本、延迟、部署、内存占用、上下文窗口等)。例如,许多团队正在改进生成模型的基本构件(如注意力机制和卷积机制),以创造出更强大、高效的AI技术。
由于模型训练的资本密集性,这些工作大多数由风险资本支持。此外,除去训练成本外,创新这一层次还需要具备合适的研究和工程人才的高水平人力资本和专业资源。目前,很多努力也在推动非transformer架构的研究,探索新的可能性。
例如,DeepSeek的NSA(原生稀疏注意力)注意力机制新方法,还有状态空间模型(SSM)和各种递归架构等在拓展基础模型的边界,这些模型计算强度较低、延迟较小,可能为训练和推理提供更便宜、更快的替代品。
与此同时,除了通用模型外,目前也有大量团队训练针对特定领域的模型,如代码生成、生物学、视频、图像、语音、机器人、音乐、物理学、大脑波等,为模型层注入了更多的多样性和灵活性。
然后是推理与部署优化:在模型部署和推理领域,AI基础设施堆栈的计算层也是最复杂的层次之一。这个层不仅直接为其他部分提供动力,而且硬件、软件以及商业模式的创新与交互也极大地影响着其发展。在硬件层面,随着供应链短缺的缓解,GPU成本有所下降,下一代GPU结合先进的互联技术,正在推动数据和GPU的并行扩展。
还有多模态数据管理与AI工作流的融合:AI驱动的数据类型日益复杂,尤其是非结构化数据(如图像、视频和文本)。传统的数据库系统往往难以有效管理这类数据,向量数据库(如Milvus、Pinecone)和对象存储(如AWS S3)因此成为AI原生应用的标配。此外,统一数据湖仓(Lakehouse)架构的扩展,使得结构化与非结构化数据得以混合分析,更加高效地支持RAG、微调等AI工作流。
存储与计算协同优化:随着大规模AI模型的训练和推理需求增加,GPU与存储之间的协调成为瓶颈。为此,分布式存储系统(如Ceph、Alluxio)增强了与GPU算力的弹性配合,支持PB级数据并行加载,同时,AI负载特征的动态数据分层技术,通过自动调度冷热数据,优化了存储系统的效率,降低了成本。
最后
人工智能基础设施的发展正处于一个前所未有的关键时期。在全球范围内,AI技术不断突破瓶颈,而中国作为全球AI产业的重镇,正在大力推动自主创新和技术迭代。
以此为背景,2025年3月27日,以“智能基石 创新赋能”为主题的人工智能基础设施峰会即将在上海召开,峰会汇聚众多业内专家学者、技术领袖、行业用户等,共同探讨AI基础设施的最新发展趋势,分享技术突破与应用案例,敬请期待!