浪潮精心为南京大学量身定制国产高性能计算集群

全球高性能计算TOP500排名,其中,排名第500位的德国宝马汽车公司的超级计算机,配有896颗1.5 GHz Itanium 2处理器惠普Integrity Superdome服务器,其计算能力仅为4万亿次/每秒,投建于2007年。与之相比,南京大学理论与计算化学研究所高性能平台的计算能力相差并不多……

服务器在线10月31日报道:10月11日,在南京大学一间非常普通办公室中,记者采访了南京大学理论与计算化学研究所的刘春根副教授。这时的刘春根副教授,刚刚完成了峰值为2.7万亿次/每秒(TFlop/s)的浪潮天梭高性能计算集群项目的部署与调试工作,这样的一个计算能力,在国内高等院校高性能计算排名第二。记者为此查阅了全球高性能计算TOP500排名,其中,排名第500位的德国宝马汽车公司的超级计算机,配有896颗1.5 GHz Itanium 2处理器惠普Integrity Superdome服务器,其计算能力仅为4万亿次/每秒,投建于2007年。与之相比,南京大学理论与计算化学研究所高性能平台的计算能力相差并不多。 

PC机并行起步

南京大学理论与计算化学研究所是南京大学多年来重点建设的四个理科学科特区之一。聘请了来自纽约大学的张增辉教授担任研究所所长,江元生院士为学术委员会主任。研究所的迅速发展对于高性能计算提出了更高的要求。为了基础科研需要,他们想了很多的办法,最初是把PC机并在一起,提供所需要的计算能力。近年来,随着211与985工程的实施,研究所获得更多的资金投入,开始引入真正的高性能计算。他们最初购买的是1台16处理器的SGI公司出产的CCNUMA结构的超级计算机。刘春根副教授表示,CCNUMA结构超级计算机与后来发展起来的集群计算之间,没有谁好谁不好的问题,但是相对而言,CCNUMA结构超级计算机可管理性比较好,在并行计算应用上也比较简单,可靠性比较好,但是从性价比的角度而言,集群就更加具有优势,但是在实际应用的过程中,集群系统在管理上具有更多的挑战。

从计算任务多样性角度出发,在新项目的采购中,刘春根副教授采用了集群系统,并采取了项目招标的方式,在评标过程中,刘春根副教授坦言,对于服务器品牌是有区分的,国际品牌有更多的加分。此外,厂商的重视程度也是一个重要的因素,综合评标的结果,IBM最终中标。也就是在这次采购中,IBM另外提供一台刀片服务器。

刚刚调试完成的2.7万亿次/每秒高性能计算平台项目,实际上是这个集群项目的二期采购,此次采购涉及了64个节点,128个处理器,总计256个计算内核。

高性能计算定制化

在集群项目二期采购中,在满足可靠性、稳定性的前提下,性价比最优的方案中标。与一期相比,最为突出变化在于打破了服务器品牌区分,无论是国际还是国内品牌,所有服务器品牌都处在同一个起跑线上。刘春根副教授表示,此举是为了给国产品牌服务器一个公平竞争的环境。

促使南大化学化工学院做出这种转变的原因,在于他们对国内用户进行了认真细致地走访,很多用户反映,国产服务器产品在质量并不存在劣势,而在性价比和服务方面,国产品牌有一定的优势。例如在某个系统项目中,系统集成商要求用户提供网线,因为为了压低成本,厂商的报价没有包括这部分产品,而这些细节问题,在评标中并不容易发现。国际品牌在技术上有优势,美誉度高,但是在具体项目上,厂商的重视程度,以及投入度上的不同,都会对项目影响。此外,应该辩证地看待国际厂商所提供的标准化服务,不要笼统认为标准化服务就好。例如标准化服务的第一步是打电话,需要准确定位系统问题。与之相比,用户更加希望厂商能够提供贴身服务,哪怕不是7×24小时,还是希望能够厂商的工程师共同定位问题,解决问题。

刘春根副教授表示,也许是涉及到人员成本问题,与国际品牌相比,国内品牌在服务上做得更好。以此次中标的浪潮服务器为例,针对电源线、网线,浪潮设计了专用的布线盒。此外,针对交换机的性能,浪潮不仅提供了有关交换机的准确参数,其技术工程师会同用户还专门对其进行了测试。

此次高性能计算平台项目采用了浪潮天梭TS10000集群系统,配有64个双路计算结点。该系统共有256个处理器内核,其集群峰值计算能力超过2.72万亿次/秒。考虑到预算较紧,没有采用高速互联网络结构,但实测的并行效率也基本满意。

系统选型与优化

关于系统选型,刘春根副教授特别提到了节能的问题。在选型中,有的老师专门进行过测试,他的结论采用英特尔上一代处理器,也就是Dempsey,其并行效率更高。但是考虑到电力消耗的问题,最终没有采用Dempsey处理器。Dempsey的微体系架构是上一代的NetBurst架构,其处理器功耗为90W/130W;而5100系列处理器,也就是Woodcrest采用了最新的酷睿架构,功耗仅为80W,具有更好的节能特性。64个节点每年可节电数万千瓦时。

对于刀片服务器,它具有更好的管理特性和节能特性。但是此次采购,南大化学化工学院没有采用刀片服务器集群方案。刘春根副教授特别提到了其中的原因,在此前的项目中,曾经配备了一台配有9个刀片的刀片服务器。刀片服务器对于散热环境要求比较高,在实际使用中,他们发现刀片服务器经常处于报警的状态,这促使他们放弃采用刀片服务器的方案。

在实际应用的过程中,有的老师反映,有些并行计算课题,2个节点运行的结果,还没有一个节点快。为此,浪潮资深技术工程师王守昊指出,其原因与软件的编译和优化有关,前面所提到的最新架构的Woodcrest处理器,

没有上一代Dempsey处理器运行效果好的原因,也是在编译和优化。他指出,除了硬件性能之外,软件编译和优化同样重要。为此,英特尔提供并行计算的一系列工具。

这种情况不仅在南大化学化工学院的项目出现,实际上,全球高性能计算TOP500国内排名最高的胜利油田项目,也是通过了近3个月前后8次优化才最终实现了18.6万亿次的计算能力。据英特尔技术工程师梁岩介绍,他们采用Intel VTune Performance Analyzers、Thread Profiler以及Cluster Toocit等性能调优工具,对系统进行调试,发现系统瓶颈,解决问题提高并行的效率。

此外,针对潜在的编程错误、针对性能和可扩充性、针对并行库和编译器优化,英特尔都提供了相应的软件产品。而这些产品将可以帮助用户有效提高系统的效率,全面发挥硬件设备的能力。王守昊表示,浪潮虽然是一家平台供应商,但是他们愿意帮助用户、与用户分享软件产品的经验和成果。他表示,用户的成功,才是真正的项目成功。