引言
【算力豹导读】2024年,千行百业对AI推理的需求将呈现出爆发式增长,行业对算力的需求远远超越以往。在这样的形势下,如何突破能耗瓶颈,进而获取更充足的算力,已经成为每个企业迫在眉睫且亟待解决的关键问题。
然而,当前的现实情况是有效算力供给已无法满足算力需求:
一方面,从储备到应用的算力需求都愈发旺盛,OpenAI CEO召集全球投资者组建联盟为大模型构建基础设施,马斯克的无人驾驶出租车Cybercab为科技行业描绘了未来感十足的面面,还有性能愈发强大的GPT-o1等模型层出不穷。
另一方面,数据中心的算力潜能尚未被完全挖掘出来。数据中心常被认为是“耗电怪兽”,因为服务器运行伴随着热量释放,温度一旦超过极限值,服务器性能就会显著降低,限制数据中心算力发挥。于是各类创新技术涌现,试图让数据中心再次突破能效瓶颈,释放出被束缚的算力潜能。
这背后的关键变量就是冷却技术,液冷技术作为推手帮助数据中心一次次突破制约。就在2024年联想集团Tech World上,联想集团董事长兼CEO杨元庆与NVIDIA创始人兼CEO黄仁勋,这两大全球科技行业顶尖企业的领军者同台,联合发布全新液冷AI服务器,勇闯“最大工业革命”。
液冷技术正逐渐成为数据中心解决能耗问题的关键
在AI芯片架构持续升级的浪潮中,高算力往往伴随高功耗的需求。这一趋势使得英伟达的部分产品功耗已突破风冷技术的极限,因此液冷技术已经从原先的可选配置晋升为“必备配置”。随着全球AI服务器需求强劲,液冷技术有望迎来量价齐升,为高算力架构提供坚实支撑。
自计算技术诞生之日起,能耗与冷却便如同双生之花,相互依存、相互制约,历经无数次的较量与博弈,在数据中心追求算力发展跃迁的百年历程中,谱写出一首冰与火的史诗。而这背后的基础设施出现过各种颇具实验性的形态,比如1985年,美国Cray-2超级计算机采用单相强制对流浸没式液体冷却系统,芯片被整个浸入冷却液中,极具科幻感和视觉冲击力。
2018年,Facebook在其数据中心首次使用蒸发冷却技术,创新性的省去了最耗电的机械压缩循环系统,使用100%自然风蒸发冷却、加湿系统。
放眼未来,面向量子计算机的冷却技术更为“神奇”,比如中国科学技术大学的研究团队提出了麦克斯韦妖式量子算法冷却方法,通过光学干涉装置搭建成冷却模块,实现量子系统的逐步冷却……
目光聚焦当下。2024年联想Tech World上,联想集团董事长兼CEO杨元庆,与NVIDIA创始人兼CEO黄仁勋同台登场,科技界两大顶尖领军者共同发布搭载联想第六代Neptune海神液冷解决方案的AI服务器。在数据中心这个算力的心脏中,海神液冷技术如同一股清泉,为高密度计算提供了冷静而高效的血液,为全世界的AI注入动力。
2024年11月15日,伴随2024/2025财年Q2财报,联想集团发布《Game of AI》系列知识科普视频的第二集《数据中心:如何与世界交换算力》。 视频延续桌面电影形式,通过《权力的游戏》风格的开场片头,复刻北境冰雪气候变化,打造亦真亦幻的三维沙盘动画,以此紧扣液冷主线。
同时,视频还以两条科技树线索,介绍了数据中心和能效的角逐演进历程,采用冰雪白为主的配色方案与模拟芯片的三维结构,融入液冷主题。
联想集团最新发布的第六代Neptune海神
联想集团最新发布的第六代Neptune海神液冷解决方案,可以为生成式AI高效计算提供动力。这在当下对于数据中心算力效率提升的重要性不言而喻。
通过视频中联想集团梳理的数据中心百年发展历史,我们发现,数据中心的算力与能耗密切相关,二者共同掌握着能量密码。
人类对算力的利用由来已久,但随着信息技术革命到来,算力的性能和规模迎来爆发,算力需求逐渐多元化,深入汽车、大模型等各种应用场景。
2024年,算力提升的关键已经从狂堆硬件转向提升效率,如今数据中心需要的革命是基建效率的角力。目标是在充分利用数据中心已有硬件设备的基础上,使其发挥出更高能耗并提供更强大的算力。视频以桌面电影第一视角,通过网页、文件等多样化载体提取信息,给观众带来更多操控互动感受。
在明确数据中心效率这一概念的同时,需要先搞清楚一个指标——TDP热设计功耗。这指的就是当芯片达到最大负荷时热量释放的指标,也是冷却系统要面对的重大挑战。
一旦超过这一极限值,处理器的温度继续升高,就会导致数据中心的性能降低,让芯片发挥计算能力的前提就是,处理器运行过程中产生的热量和冷却技术的散热能力达到平衡。
因此提升基建能效,将其从能耗制约下拯救出来的关键就是冷却技术。二者相互制约又相互关联,共同决定了数据中心的稳定运行和能源利用效率。
Iceotope推出KUL AI液冷服务器
获悉,2024年11月12日精密液体冷却的全球领导者Iceotope今天宣布推出KUL AI,这是一种新的解决方案,可在任何地方提供AI的承诺,并在增强热管理和最大服务器性能至关重要的情况下提供显着的运营优势。
KUL AI采用基于8GPU技嘉™ G293数据中心服务器的解决方案,集成了Iceotope的精确液体冷却,并由英特尔®至强可扩展处理器提供支持,这是Iceotope迄今为止集成的最强大的服务器。8GPUG293专为支持密集GPU计算而设计,获得了NVIDIA认证解决方案认证,并针对使用介电流体的液体冷却进行了优化。KUL AI 通过保持最佳温度、保护关键IT组件和最大限度地降低故障率来确保不间断、可靠的计算性能,即使在持续的GPU运行期间也是如此。
AI负载推动液冷渗透率提升
在AI技术引领的数字经济时代,AI算力需求持续狂飙,同时承载AI算力的芯片电力功耗不断提升,并带来高昂的碳排放代价。
数据显示,作为算力中枢的数据中心在AI工作负载的激增需求下,深陷能耗泥沼。根据IDC测算,预计到2027年,AI数据中心容量的复合年增长率 (CAGR) 将达到 40.5%,与此同时 AI 数据中心的能源消耗预计将以44.7%的CAGR增长,到2027年达到146.2太瓦时 (TWh)。
耗电越高,间接碳排放就越高,在绿色发展共识下,AI算力需求爆发下的节能降碳解决方案刻不容缓。为有效地应对AI算力功耗挑战,应用液冷技术已成为当前业界共识,由此也带动液冷散热方案在2024年的渗透率将达到 10%,到2025年提升至 20%。
目前,算力厂商正积极布局液冷技术,进一步驱动液冷散热渗透率提升。如英伟达以其新一代的Blackwell GPU,大幅提升了散热设计功率(TDP),并宣称其未来所有GPU产品的散热技术都将转为液冷。大型云厂商作为AI算力的主要采购者,通过布局基于英伟达GPU的AI服务器,也带动液冷技术的纵深应用。TrendForce 称,随着全球ESG意识提升,加上CSP(云厂商)加速建设AI服务器,将带动散热方案从风冷转向液冷形式。
在算力核心基础设施的服务器层面,液冷技术将推动液冷服务器蓬勃发展。中金公司指出,AI服务器算力提升使得智算中心单机柜功率密度大幅增长,既需要使用液冷技术实现有效降温,也使得液冷技术相较于传统风冷技术实现成本经济性,市场有动力自发推动液冷技术在AI服务器上的广泛普及。
我国作为AI发展大国,正不断加大对液冷数据中心的投入力度,根据赛迪顾问统计,今年上半年,我国公开招投标的液冷数据中心中标数量超过去年同期的3倍,2024H1新建智算中心基本都应用了液冷技术。
我国液冷数据中心爆发,为液冷服务器市场的高速增长带来了强劲动能。IDC 预计,2023-2028年,中国液冷服务器市场年复合增长率将达到45.8%,2028年市场规模将达到102亿美元。
结语
算力已经成为人工智能进入真实的产业环境中不可或缺的核心要素,液冷技术更高效地带走高温,使算力可持续,让数据中心源源不断与世界交换算力。如今,AI重塑整个世界运行逻辑,算力正是其坚实的底座。正如联想集团打造的视频结尾所说,“服务器与数据中心作为千行百业的基础设施建设,将重新定义AI作为生产力的能量源泉,并以世界之力再造世界”。(文/宋雨涵)