日前,在2013亚洲大学生超级计算机竞赛(ASC13)总决赛上清华大学代表队夺得总冠军,并以7.58Tflops的Linpack成绩拿下“最高计算性能”单项奖,成为ASC13大赛的最大赢家。据悉,清华大学创造的7.58Tflops的Linpack成绩,也是国际同类大赛中的最好成绩。
清华大学的夺冠之路并非轻而易举,本次入围ASC13总决赛的其他高校:台湾清华大学、上海交通大学、国防科学技术大学、中山大学、华中科技大学、韩国蔚山科学技术大学、香港中文大学、圣彼得堡大学、沙特阿卜杜勒阿齐兹国王大学也堪称翘楚。其中,被清华大学带队教师、清华大学地球系统科学研究中心副教授黄小猛称为“老大哥”的台湾清华大学,参赛历史长,在既往的各类国际超算大赛表现抢眼,曾两度摘得美国SC超算大赛的总冠军;同时还有ISC、SC双料“最高计算性能奖”的国防科学技术大学、主场作战的上海交通大学等等,都是赛前夺冠的热门。
根据大赛要求,参赛队需要在3000瓦功耗限制下自行设计搭建超级计算机系统,并进行HPL、GROMACS、OPENCFD、WRF、BSDE等5项优化测试,大赛对各参赛队的超算理论基础和实践操作技能提出非常高的要求。
从组委会公布的数据来看,虽然清华大学第一轮HPL浮点性能基准测试中创造了7.58Tflops的国际同类大赛最好成绩,但是赢得并不轻松,上海交通大学以7.43Tflops的成绩紧追其后。依托竞赛平台浪潮NF5280M3超算服务器高性能高扩展的优势,清华大学和上海交大均采用了富有创造力的“一机双卡”方案,每个计算节点配置了2块最新的NVIDIA的K20GPU加速卡,在同等功耗限制下的平台比其他参赛队性能更高。
在随后的应用优化测试中,考验各队对应用的了解和熟悉程度,台湾清华大学体现出其多年征战SC大赛的丰富经验和优势。他们熟知每个算例的复杂程度从而更好地规划了竞赛时间,争取用最短的时间来实现应用的最大优化,而华中科大也夺得了WRF、BSDE两项测试第一,中山大学在GROMACS测试中表现最优异。
据了解,赛前清华大学代表队做了非常充分的准备,这可能是其夺冠的关键所在。清华大学耗费了3周时间对OpenCFD软件进行评估、1周时间将其移植到GPU平台,并优化了该软件的I/O架构,使得平台通讯复杂度由16N2降低到12N2,他们还将WRF系统串行I/O优化为并行I/O,将系统通信效率提升10%以上,将BSDE软件从串行架构改写为高并行MIC程序,并优化数据访问方式、算法模型,使程序性能提升上万倍。
谈到夺冠,有关专家评委表示,超级计算机大赛是对竞赛平台和参赛队应用理解的综合考验。而区别于ISC、SC大赛,ASC13为参赛队提供了统一的竞赛平台即浪潮NF5280M3超算服务器。浪潮NF5280M3曾支持清华大学、国防科学技术大学征战国际比赛并立下累累战功,它的高稳定性、高扩展性已蜚声业界。在这样毋庸置疑的硬件基础上,要想赢得比赛,更多凭借的是各高校参赛队对应用的理解。
清华大学对最新计算技术的深刻理解和娴熟操作显然起到了关键作用,在单纯CPU集群、CPU+GPU异构集群和CPU+MIC集群的平台策略选择中,清华大学根据参加超算大赛的经验,选择了CPU+GPU异构集群。这种方案其他参赛队伍也测试过,但加速比情况不理想、设备过热,且容易超出3000瓦的功率约束,清华大学显然更好的解决了这些问题,奠定了夺冠基础。