美国当地时间11月14日,随着新一期全球超级计算机500强榜单(Top500)在第29届国际超算大会(SC16大会)上的公布,中国自主研发的“神威•太湖之光”再次摘得桂冠。面对“神威•太湖之光”不可撼动的每秒近十亿亿次浮点运算能力,传统超算强国纷纷摩拳擦掌,将目光和讨论的焦点移向了下一代超级计算机——E级超算。
各国对E级超级计算机的竞逐,标志着高性能计算发展进入一个新的历史阶段。然而,摆在全球高性能计算专家面前的一个难题是,在提升计算速度、搭建超大规模计算集群的同时,如何降低系统功耗?按照国际公认标准,E级超算的功耗应低于20MW,即便适当放宽要求,系统功耗也不应超过30MW。
翻越“功耗墙”的必由之路
全球领先的高性能计算机制造商曙光也正参与在E级超算设备研发的大潮中。作为国家“十三五”高性能计算专项支持的开展E级超算系统研制的3家单位之一,曙光在SC16大会上亮出了解决E级计算“功耗墙”的法宝——采用全浸没相变冷却技术来解决整套系统的散热问题。
“E级高性能计算机研制,是国家‘十三五’高性能计算专题中的一项重要工作。这套系统密度高、功耗大,最终单机柜功率密度可达60kW、全系统总功耗或将达到30MW,对冷却系统的能流密度和系统PUE值都提出了严峻的挑战。” 数据中心产品事业部总工程师沈卫东说。
他解释说,对于下一代超级计算机,传统的风冷技术已难以实现对系统的高效散热,而由于液态冷却液的散热效率比空气高上千倍,所以给液冷技术带来两大好处:一是液冷技术突破了CPU的散热瓶颈并大幅提升了设备功率密度,而是减少室内侧传热总温差从而去掉空调设备及压缩机,允许全年自然冷却,从而大幅降低PUE值。
目前市场上已开发的液冷服务器大多为冷板式即间接式液冷服务器。但是,从长远角度看,直接冷却式液冷能解决更高热流密度的散热问题。直接冷却式又称浸没式冷却,冷却液与被冷却对象直接接触,冷却效率更高。
“从目前国内外最新的研究进展来看,使用液态冷却液替代空气来对计算机设备进行冷却,是未来计算机设备的一场技术革命。”沈卫东说,降低数据中心能耗的技术手段有很多,但要应对E级超算的“功耗墙”,已经不是简单地优化数据中心建设问题,必须革命性地改变计算机等设备的冷却方式,而成熟高效的浸没式液冷技术将是翻越E级超算功耗墙的不二之选。
“曙光液冷”的技术储备
近年来,曙光与世界知名企业合作逐渐增多,并致力于液冷技术的产业革命。通过曙光液冷技术开发团队潜心攻关、突破瓶颈,如今,积淀的液冷技术已经由量变引起质的飞跃。截至目前,曙光已申请液冷相关专利40余项,并将掌握的技术专利转化成420原型机、W560-LI全浸式液冷系统、浸没式液冷展示机等液冷先驱产品。
早于2015年9月,曙光就发布了国内首款可量产化的TC4600E-LP液冷服务器,并顺利实现量产和商用,在液冷技术的市场化实践上走在了前列。而真正彰显曙光在液冷技术上领先地位的,则是随后在全浸没式液冷技术上的突破。
沈卫东介绍,曙光的浸没式液冷技术是通过将主板浸没在电气绝缘、化学稳定、无毒、无腐蚀性、低温室效应的冷却液中,利用冷却液的沸腾汽化带走热量,冷却液蒸汽在顶端冷凝,在重力作用下滴落回到腔体中,在腔体内部完成冷却循环,实现了真正意义上的浸没式冷却。
液冷技术前景诱人
全浸没式液冷相变技术由于采用了特殊的冷却液,可以大大提高散热的热流密度——它能够为单机柜功率密度高达100kW的服务器设备进行高效冷却。可以想象,当数据中心单机柜的热流密度进一步增加时,浸没式液冷便会得到广泛的应用。
“全浸式相变冷却技术为更高密度的节点设计扫除了障碍,可使机房面积降低到原来的十分之一。”沈卫东说,浸没式液冷可广泛应用于超级计算机和普通服务器的散热,为超算中心和大型数据中心的散热问题提供一个优异的解决方案。
因此,尽管液冷服务器仍有设备维护专业性要求高、产业化初期成本较高等问题存在,面临着相应的机房建设和运维标准尚未建立、产业链尚不完善等现状,但这些技术和市场方面的障碍无法阻挡用户对整个数据中心更低TCO及更高投资回报率的追求,以及亟需解决的E级计算“功耗墙”的要求,因此在大规模数据中心和高性能计算应用领域,液冷完全替代风冷指日可待。