从数据中心到智算中心 元脑“算力工厂”带来预制化和模块化的创新方案

随着人工智能应用加速落地,传统数据中心建设方式将会被新的算力工厂模式所替代。一方面,传统数据中心长周期建设模式,已无法满足算力快速迭代、应用创新加速、业务即时上线的迫切需求。同时,芯片功耗持续攀升与大模型应用开发带来算力需求爆炸的双重压力之下,算力特别是智能算力需要更加创新的部署模式。

近日,元脑“算力工厂”首次亮相。元脑算力工厂采用预制化AIDC解决方案,通过预制化、模块化的创新基建模式,将同等规模智算中心的建设周期从18个月缩减至4个月,工期缩短了近80%,实现智算中心的快速交付,满足业务快速上线需求;智算中心部署了高密智算算力仓,包括50kW负载的风冷机柜和130kW负载的液冷机柜,实现智算中心的高密部署与绿色节能。

一、数据中心的进化之路与智算新挑战

浪潮信息服务器产品线行销总监周相峰告诉记者,从早期以主机托管为主的计算中心时代,到综合IT托管的信息中心时代,再到云数据中心时代,如今已步入以智算为主的算力中心时代。在这个过程中,算力需求的结构发生了显著变化,智能算力占比不断攀升。然而,传统数据中心建设周期长,规划时缺乏以算力为核心的考量,已难以满足智算中心快速发展的需求。

传统数据中心的建设需要经过设计、土建、机电安装、调试等多个阶段,从规划建设到使用,整个数据中心的生命周期是15年,而建设周期大概需要三到五年。但是当前算力技术迭代非常快,芯片创新周期基本实现每年迭代,应用创新周期更是压缩至数月甚至数周。如果沿用传统建设模式,不仅很难做到第一时间升级新一代技术,更无法及时实现业务的智能化升级,数据中心会面临建成即落后,现实算力需求超预期却难扩容的窘境。

随着智算中心的兴起,一系列新的挑战接踵而至。国家对碳达峰和碳中和的政策要求日益严格,数据中心的高耗电量成为亟待解决的问题。例如,2025年数据中心的电力消耗占全民用电的4.05%且呈上升趋势,北京、上海等地对数据中心的PUE值提出了严格要求,大于1.7的甚至可能被关停。此外,东数西算工程的推进,对数据中心的布局和能源利用提出了新的要求,如何在能源丰富的西部地区建设数据中心,并解决电力远距离传输的成本和损耗问题,成为关键课题。在散热技术方面,随着热源增加和能耗增大,从传统风冷到冷板、浸没式液冷技术的不断演进,节能成为数据中心技术发展的核心方向。

二、算力工厂:预制化AIDC创新解决方案

面对这些挑战,浪潮信息推出了预制化AIDC解决方案。该方案有三种形式:一体式的AIO一体化集装箱数据中心,适用于小规模需求,通水通电通网即可使用,部分甚至无需做地基;临建式的多箱拼接数据中心,规模在十个集装箱以内;以及类似永久性建筑的AIDC方案。

元脑算力工厂是浪潮信息预制化AIDC解决方案的完整实现。浪潮信息人工智能和高性能产品线方案架构总监杨振宇提到,算力工厂仅用120天就完成了119个集装箱的搭建,计算集群可覆盖预训练、训练、推理、微调等全场景应用,全面支撑了全球服务器大规模测试、大模型开发和智能化转型等业务。

元脑算力工厂所采用的先进预制化AIDC解决方案,实现了智算中心模块的高度预制化,所有机电设备在工厂预集成、预测试,接入市电、网络和水源即可独立运行,预制装配率高达90%,且集成工作与现场土建工作并行,在极大降低对场地空间要求的同时,相比传统土建机房工期可缩短80%左右,解决了传统数据中心建设周期长、无法满足业务快速上线的问题。

浪潮信息人工智能与高性能产品线副总经理张强指出,算力工厂首先确保了服务器的质量和稳定性,作为国内首个预制化模式的服务器测试中心,每年可满足150万台服务器的测试需求,支持40类、2000余项测试内容。同时,浪潮信息算力工厂还可支持教科研、生命科学、气象、能源、金融、自动驾驶、互联网等众多行业的POC测试需求,配置100多台测试设备,可同时满足30多个中等规模项目的并发测试需求,并配备硬件、集群、应用等技术支持团队,已为350多家海内外客户提供测试支持。

为了解决高密度部署带来的散热和能耗问题,元脑算力工厂将液冷、光伏、储能、余热回收等多种绿色技术有机结合,PUE可降至1.1以下,并采用智能管理平台实现IT和机房设备的控制联动,更加绿色节能。例如,光伏发电技术能够直接将太阳能转换为电能,为智算中心提供清洁的电力来源;储能技术则允许智算中心在电力需求低时储存能量,并在高峰时段使用储存的能量,从而平衡电网负荷并提高能源利用效率。同时,集成冷站采用变频冷机,冬季和过渡季节实现自然冷却,15℃/21℃中温冷水制冷,整机能效比大于等于5.5,结合余热利用技术,冬季可覆盖办公区供暖。此外,集装箱为预制化钢结构建筑,材料回收率超80%,施工现场无粉尘噪音,建筑垃圾少,实现绿色环保。

浪潮信息服务器产品线副总经理李金波表示,元脑算力工厂全面遵循了“高密与绿色”的未来智算中心设计理念,算力节点大量使用高密智算算力仓,将风冷机柜的负载上限提升至50kW,液冷机柜的负载上限更是高达130kW。高密智算算力仓集计算、存储、网络于一体,高效融合机柜、配电、UPS、空调、监控、消防等系统,基于标准化、去工程化、运行效率最优化、管理智能化等原则设计,具有超高密度部署、绿色节能、安全可靠等特性。

Scale Up所带来的部署密度提升是实现Scale Out规模持续扩张的前提和基础,而液冷、智能温控等先进制冷技术则会解决Scale Up引发的散热问题,二者叠加会把占地大、能耗高的数百兆瓦的智算中心压缩成更加紧凑、更加节能的智算中心,未来智算中心的设计建造必须要意识到这一点。

在大模型开发方面,算力工厂通过Scale Up的创新实现领先的多元算力供给,在软件平台层面进行全栈优化,提高集群的算力利用率和韧性,支撑大模型从诞生到迭代的整个周期。此外,算力工厂还依托自身能力开展智能化转型服务,在研发、供应、生产、营销、服务等全链条环节运用AI,提升运营效率,如编程助手借助自研大模型为研发工程师节省大量时间。

三、市场应用与客户反馈

在市场应用方面,李金波表示,在高校和科研院所,由于经费和场地的限制,常采用几个集装箱拼接的模式来满足偶发性的算力需求。这些智算中心功率密度一般在100-200千瓦左右,使用周期与高校科研项目周期相匹配,到期报废后对场地和投入影响较小。在海外市场,由于人力成本高,预制化智算中心能够快速部署,满足当地对算力的紧急需求。

对于客户关心的方案选择和成本问题,李金波表示,AIDC解决方案具有高度灵活性,客户可根据自身需求选择不同的模块和配置,算力仓等产品也可单独交付。在成本方面,虽然预制化方案在前期的CAPEX投入可能相对较高,但从长期来看,通过液冷等绿色节能技术的应用,后期的OPEX能够显著降低,在大规模数据中心中,TCO(总体拥有成本)有望实现最低。

四、技术创新与产业发展趋势

在技术创新上,浪潮信息取得了多项突破。在网络方面,针对大模型训练中的网络瓶颈问题,打造端网协同的X400超级AI以太网解决方案,将交换机和网卡紧密耦合,创新自适应路由和拥塞控制方法,数据传输的有效带宽率超95%,通信效率较传统组网方式提升1.6倍。在算力供给模块,部署性能强劲的AI服务器和自研智能套件,实现超过80%的算力利用率,并通过并行优化策略,使千卡集群的拓展性超过99%。此外,元脑企智EPAI平台为大模型应用落地提供了丰富功能和图形化界面,降低了开发难度,帮助企业加速大模型的落地应用。

展望未来,张强认为,随着液冷技术的普及和算力集群规模的扩大,大规模预制化智算中心的市场需求将持续增长。在人工智能产业中,应加强长期创新,避免内卷式竞争,促进芯片制造厂商、软件开发商和客户之间的协同发展,合理规划算力系统,提高算力利用率。周相峰则强调,在当前智算时代,预制化AIDC是最优解决方案,随着技术的不断进步,未来还可能会出现新的技术和模式对其进行迭代。

浪潮信息的算力工厂和预制化AIDC解决方案,不仅是应对当前智算中心建设挑战的创新举措,更是推动人工智能产业发展的重要力量。通过技术创新、灵活的解决方案和对市场需求的精准把握,浪潮信息在算力领域持续深耕,为各行业的智能化转型提供了坚实的支撑,也为整个产业的可持续发展指明了方向。算力工厂的模式将成为智算中心建设的主流。