中国高校高性能计算能力排行榜再次被刷新,吉林大学采购的浪潮天梭TS10000正式上线运行,其浮点运算能力高达40万亿次,位居全国高校高性能计算机之首,成功跻身全球最新高性能计算机TOP500 排行榜。
吉林大学是教育部直属的全国重点综合性大学,是1995年首批通过国家教委"211工程"审批,2001年被列入"985工程"国家重点建设的大学之一,承担着包括863计划、973计划在内的众多国家级项目,设有理论化学、汽车动态模拟、超硬材料等数十个国家级、部级和省级重点实验室。为了尽快实现成为国内领先、国际知名的高水平研究型大学的目标,吉大近年来不断加大在科研领域的投资,壮大科研实力。
两种模式的选择
计算已经和试验、理论并列成为现代科研的三大支柱, 2009年有多个领域的诺贝尔奖成果都是在高性能计算的支持下取得的。高性能计算集群已经成为吉林大学众多重点实验室从事科学研究不可或缺的工具。
加强HPC的建设显然是吉林大学的当务之急,不过更为紧要的是选择何种部署方式。当前高校科研院所普遍采用分散部署的方式,每个院系甚至每个专业都有自建自用的高性能系统,这些系统个性化强,能很好的满足使用者的需求,但也带来了很多问题,例如资源封闭不能共享,利用率不高,管理维护成本高等,而且使用者通常也必须是系统的维护者,他们不仅要精通自己的专业领域,也要了解计算机方面的技术,因此导致在运维方面花费了巨大的精力。
最终学校决定"集中资金办大事",斥资1300万元建设一套超大规模的高性能集群,作为支持各个科研单位和国家重大项目的基础平台,这样不仅节省投入,还可以把科研力量从高性能使用维护中解放出来,有效提高科研效率,更快地实现建设研究型大学的目标。
众口难调的挑战
建设后的超算中心主要用户包括理论化学国家重点实验室、材料学院、无机合成与制备化学国家重点实验室、数学学院、集成光电子、汽车学院、超分子结构与材料国家重点实验室等,各实验室使用的应用软件也涵盖各个领域,比如计算化学领域的Gaussian, ADF, Materials Studio, VASP, Molpro, Molcas, Amber, Grom等,分子动力学领域的AMBER, HyperChem, ChemLab, CHARMM等,CAD/CAE领域的LS-DYNA, FLUENT, MATLAB等。
高性能计算本质是并行计算。目前大多数计算软件都比较复杂,几乎每一款计算软件都会对平台有不同的要求,甚至有些软件的在并行计算过程中有多种并行方式,而且不同的并行方式对硬件的要求也不同。比如,Gaussian本身就支持两种并行方式,分别为单节点内的OpenMP并行和节点间的TPC-Linda并行;
将数十个不同的应用搭建在一个通用的平台上,而且要保证计算、存储、I/O之间的贴合显然是一个难以解决的NP难题,这不仅需要服务器厂商对硬件的深入了解,更需要深刻把握不同使用者的实际应用需求。
"用好,好用"比"40万亿次"更重要
针对用户的需求,浪潮提供了基于最新英特尔®至强TM5600系列处理器的天梭TS10000高性能服务器集群系统,该系统的计算能力峰值达40万亿次,整套方案以"300个刀片计算节点+QDR Infiniband"构成计算模块,10台机架式服务器通过光纤交换机共享8Gb光纤存储盘阵,并作为LUSTRE并行文件存储系统统一负责数据的存储和传输,登陆节点、管理节点、作业调度节点均通过以太网对整个集群进行管理,另外还配有2个GPU计算节点,专职一些海量并行数据处理工作。
"高密度刀片+QDR Infiniband"构成的计算模块,提供了最强的计算能力和高带宽、低延迟的计算网络,在用户应用中,Gaussian、ADF等多种应用的计算效率严重依赖处理器主频,Amber,Grom等应用在并行计算时对网络的要求十分苛刻。因此该计算模块整合了多项最新技术最大限度的消除了系统瓶颈;"LUSTRE并行文件系统+光纤"满足了数据密集型计算的需求。用户的主要应用系统Gaussian会产生很大的临时文件,读写文件就会占用一半的计算时间,而8Gb的光纤高速读写能力,直接提高了用户的计算速度,为用户节省了时间。
硬件系统的定制化仅是第一步,应用的部署和调试则更为专业。不同的计算软件、计算方法,对硬件资源的要求、参数设置各不相同,要实现高效计算必须为每个应用分配合理的资源,进行合理的参数设置。如Gaussian软件,L502(一类计算任务类型)并行计算效率很高,即使扩展到32颗CPU效率也很高,而L906则仅在8颗CPU时效率较高。
该方案还采用浪潮自主的监控管理系统,所有系统管理均可在界面中实现。除了帮助用户部署应用外,浪潮还利用高性能培训服务体系,为用户后期的运维和使用提供了全面的培训,不仅为用户提供了好用的设备,更让用户用好自己的系统。
结束语
国内正掀起一股超算建设热潮,上海、天津、深圳等城市都已经建成自己的超算中心。不可否认,超大规模的共享平台在提高资源利用、减少后期投入方面具有明显的优势,但"只有通用的平台,没有通用的应用",在面对数量繁多的应用时,如何提高高性能系统的实际计算力则成为了主要的挑战。浪潮提供的"定制方案+全程服务"的模式提供了很好的解决之道,值得借鉴。