“又快又准”浪潮高性能提速西北工业大学三航科研

新的集群让应用的运算时间缩短了1/10,这对整体研发效率的提升作用是显而易见的,让我们能够更加专注于对航空、航天、航海理论的研究和更多研究模型的建立。同时,浪潮视我们如Partner的感觉,也确实帮助我们解决了大量的应用问题。

——西北工业大学网络中心负责人

西北工业大学是我国唯一一所以发展航空、航天、航海工程教育和科学研究为特色的研究型、多学科和开放式的科学技术大学,在三航的高性能计算领域承担了多项国家自然科学基金重点课题,如大型航空整体结构软件变型机理及精度保障技术、空天飞行器材料与结构的性能评价及关键理论研究、材料与制品性能预测的多尺度模型与计算方法等。

又快又准的双重挑战

航空、航天、航海领域的很多研究都离不开超级计算机,如飞行器材料筛选、外观设计、飞行安全性预测、发动机机舱燃烧模拟、宇宙飞船所在的外太空分子模拟等。三航领域对超级计算机的要求非常高,不仅要求计算效率要足够快、更重要的是要求计算出来的数据绝对可靠和精准,否则一个小小的偏差则有可能在实际制作中损失大量的经费。

西北工业大学计划兴建一套高性能计算集群,主要用于西工大航空、航天、航海、材料、机电等学科领域的材料计算、结构计算、流体计算、电磁计算、分子动力学计算、有限元计算等方面,并承担西北工业大学Chinagrid教学科研平台的一些任务。

新瓶如何装旧酒?

西北工业大学原有的高性能计算集群上已运行了多个三航应用程序,如何将这些既有的应用顺畅的迁移到新的集群之中,是迫切需要解决的问题。如西北工业大学的材料云管理系统,用户主要通过该系统进行计算任务的提交和管理工作,为了方便用户使用新集群,需要把新集群的管理系统ClusterEngine和原有系统进行整合。但是ClusterEngine和西北工大材料云系统的开发语言和框架完全不同,整合难度和工作量非常大。

针对三航应用的特点,浪潮为西北工业大学设计构建了峰值计算性能达80万亿次的超级计算机系统,在国内高校和三航应用领域处于领先地位。该集群具有计算性能优越、功耗控制领先、监控管理系统方便易用、系统开放易于扩展、服务体系完善等特点。

首先,系统采用性能强劲的Intel Sandybridge E5-2670处理器,CPU总体理论计算峰值高达53TFlops;系统存储总容量219TB,分为并行存储系统179TB,光纤存储系统40TB;另外,考虑到节能、空间、扩展、维护等因素,浪潮选用了高密度刀片服务器作为计算服务器组;在网络方面采用Mellanox Infiniband 高速网络组成胖树架构的计算网络,保障全线速互联;并且为了更好的协助用户提升新架构应用水平与能力,浪潮配置了最新Kepler K20 GPU加速节点。整体项目中采用了浪潮高扩展性并行存储系统TSExaStor,具有更高的带宽、更强的稳定性、更友好的界面和更多的备份策略,并且配置了一套IPMI网络,便于管理员的带外管理。

软硬一体化服务提升科研效率

为了让客户尽快使用集群,现场实施工程师和后台研发工程师从客户处要来资料熟悉材料云的实现方式,经过一周的努力,把ClusterEngine的主要模块进行了移植,通过材料云管理系统可以无缝的对新集群进行管理和任务提交。

新的高性能计算集群进一步缩短了三航应用的运算时间,缩短了大约1/10左右的研发时间。同时,浪潮也深入参与到三航领域的高性能计算管理软件的开发和应用软件开发。目前,双方共同开发的面向三航的ClusterEngine高性能计算服务平台已获得了显著的成果。

同时,西北工业大学之前使用了多个商用软件,这些软件按照使用的license数量进行计费。为提高浮动 license的使用效率,西工大与浪潮合作开发了浮动 license调度系统,该系统可以自动调度 license,提高了浮动 license的使用效率,加快了科研进度。

在异构应用研究领域,双方共同开展基于GPU、MIC平台的计算流体力学应用优化也取得了丰硕成果,其中基于MIC平台的计算流体力学应用优化算法成为2012年IDF12大会的唯一MIC展示案例。