“未名一号”一小步,AI变革一大步

新年伊始,气象万千。1月3日,北京大学英杰交流中心嘉宾云集,北京大学党委副书记兼秘书长安钰峰,北京大学副校长兼教务长高松院士,联想集团董事长兼CEO杨元庆,联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧等共同见证了国内首个温水水冷高性能计算平台–“未名一号”北京大学高性能计算校级公共平台的启用揭牌,这将是北京大学建成的第七个校级平台,他的投入使用将帮助北京大学实现“双一流建设”的目标。

计算是基础,也是核心

北京大学高性能计算校级公共平台“未名一号“由227个节点组成,其中计算节点196个、GPU节点10个、KNL节点8个、胖节点3个、管理和登录节点6个、IO节点4个,存储采用联想GSS24存储系统,容量2784.8TB,计算网络采用Omni-path架构,编译器采用GNU和Intel最新编译器套件,作业管理采用Slurm作业调度系统,集群管理采用联想LiCO集群监控管理套件。该集群系统理论计算峰值高达411万亿次/秒,计算节点理论峰值261万亿次/秒,实测计算能力达到242万亿次/秒。

目前,联想已经与国内外多所高校展开合作。在国内,联想与南京大学、厦门大学等院校合作建立超算平台,持续提供强大计算力支持。在与南京大学的合作中,联想交付了近900万亿次超算集群系统,创造了国内高校高性能计算平台规模的纪录;在全球范围内,联想赢得牛津大学、伦敦大学、芝加哥大学、北卡罗莱纳州立大学等高校的信赖。比如,联想与北卡罗莱纳州立大学研究人员正在开展更深入的研究,以应对全球粮食水源短缺的挑战。在伦敦大学学院,研究人员正在通过大型强子对撞机,重建高能粒子碰撞事件,解决有关宇宙起源的基本问题。与之相比,“未名一号”则肩负着北京大学学科建设以及AI应用变革的使命和任务,”在数学、物理学、化学、生物学、地球科学、航天航空科学、计算机科学等多个学科科研领域,需要“未名一号”提供大规模数据处理和大规模科学计算的能力。不仅如此,以AI驱动的智慧化变革同样需要强大的计算能力为基础。

如今,算法(Algorithm)、大数据(Big data)和计算力(Computing power)堪称AI三大要素,所谓ABC。其中AI通用算法和不同行业应用场景的结合,以大数据为基础的机器学习、深度机器学习,将帮助传统产业以前所未有的视角,深化行业业务创新和变革。可以说,AI的业务应用离不开强大的计算能力,以及持续稳定的能力输出,而高性能计算恰恰具备了这样的特征,由此也拉动了信息技术学科对于HPC计算能力的需要。“未名一号”高性能计算校级公共平台的实践也印证了这一点,从试运行的结果看,“未名一号”运行平稳、作业饱满、性能优良,目前支撑了学校21个院系的100项科研项目,同时在试运行期间,已经支持发表了高水平的论文,成绩喜人,用户的反映良好。

节能之外的意外收获

作为国内首个温水水冷超算平台,“未名一号“的启用堪称“吃螃蟹”之举。对此,北大内部也对“水泄漏”的问题感觉过担心。此外,国内机房建设标准对“冷冻水”方案缺乏支持,也是导致水冷系统不能够得到推广的原因。

作为国内学科领域的带头人,北大的教授也清楚地知道:较之传统的风冷方案,水冷方案在换热效率,也就是热容比方面的巨大优势。同样的热量置换,风冷方案不仅需要更大的空间,同时也需要消耗更多的电能,其中,PUE是一个最能够体现能耗的指标。如果采用风冷方案,无论如何没有办法实现PUE 1.1的指标。经过测算,温水水冷方案每年能够给北京大学带来60万度电的能源节省。

目前“未名一号“高性能计算校级公共平台的进水温度在38℃左右,经过高性能计算平台热交换,出水温度在45℃左右。据介绍,这是一个理想的温度,经过联想在全球的无数实践证明,这个温度对于冷凝水的抑制,以及散热效率是一个最佳的实践。也完全吻合高温数据中心的发展趋势。根据联想的研究,新一代的温水冷却技术,可以进一步提升出水温度到50℃,由此可以带来额外25%的效率提升。因此,其应用前景空间广阔。

“能源效率之外,温水水冷技术还带来了超级计算平台所需要的高可靠性和稳定性。”北京大学物理学院副教授、北京大学高性能计算校级公共平台主任雷奕安说。

“高性能计算平台实现高性能计算的关键就是并行计算,以LinkPack测试为例,在测试过程中,任何单一节点故障,都会导致测试的失败。在实际上应用过程中,单一计算节点,或者内存等关键部件温度过高,都会到导致计算效率的降低。与风冷相比,联想提供的温水冷却技术提供了更高的散热保证,从而能够为高性能计算能力的持续稳定输出提供了保障,而这是能源效率之外,意想不到的额外收获。” 雷奕安说。

小结

对于企业也好,对于科研机构也好,最为难得可贵的精神在于创新,唯有创新才是企业、科研机构长盛不衰的动力源泉和保障。很多时候创新并没有那么难以实现,以“未名一号“温水冷却高性能计算校级公共平台为例,其中温水冷却已经算不上新生事物,但是国内普遍缺乏应用的勇气,这才是阻碍技术水平提升的大问题。从这个意义上来说。北京大学 “未名一号”的一小步,将会成为带动产业技术进步的一大步。不仅如此,国内首套温水冷却技术高性能计算平台的落地推广,对于未来我国E级计算平台能源效率问题的突破,也会带来积极的经验积累!

毫无疑问,“未名一号“开了一个好头,无愧为学科研究的带头人!