当今中国,随着科研、生产对HPC的依赖加深,浮点能力价格比不断跳水,HPC已进入普及阶段,各个科研机关、高校、企业等普遍面临高性能设备的规模急剧膨胀,以及由此导致部署、维护等挑战,日常管理和TCO控制。浪潮为山东大学高性能计算中心提供的一揽子解决方案,以应用为起点,采用了国内首款自主大服务器浪潮八路天梭TS850,使山大高性能计算中心的计算性能实现飞跃式突破。浪潮致力于提供"好用、用好"产品、方案和服务,其全程业务的服务模式或将成为解决HPC当前问题的一种主流途径。
前瞻视角 通盘权衡
山东大学作为一所学科齐全、学科实力雄厚的教育部直属重点综合性大学,是首批进入国家"211工程"和"985工程"重点建设的高水平大学之一,科技竞争力位列世界高校500强内、国内排名第七,承担着包括863计划、973计划、军工项目、国家自然科学基金课题等共6000多类科研项目。为进一步支持这些重大项目,更快地将山东大学建设成为一所世界知名的高水平研究型大学,山大面向社会公开招标,优中选优为科研队伍提供一流的硬件设施支持。
山大的需求反映了近年来各大高校普遍面临的现状。随着我国建设研究型一流大学的工作不断深入,各学科对大型、密集、高性能计算的需求也在与日俱增,由于每个学科的研究需求千差万别,高校科研院普遍采用分散部署的方式,各个院系独立部署。但是随着科研任务的不断加重,原有的计算设备已不足以支撑,制约了学校科研工作和人才培养水平的进一步提升。因此,不少学校决定建设全新的高性能计算平台,集中部署以作全校共享的公共服务基础设施。
山东大学在部署高性能计算中心时,前瞻性地选择了集中部署的路线,一步到位避免后期重复建设。不仅如此,对于系统建成后的维护管理工作,项目负责人也通盘做了权衡:"建设高性能计算中心的目的是促进科研进度,然而当前的高性能设备越来越复杂,维护起来要耗费巨大的精力。"从经济层面考虑,伴随着TCO中购买成本不断降低,后期能耗、散热、管理等后期维护和使用成本不断膨胀,与日剧增将成为一笔惊人的开支。
在高校的高性能计算中心部署中,这两个问题日渐突出。集中部署一方面解决了资源封闭不能共享、利用率不高、管理维护成本高等问题,然而带来了另一个技术难题。高校尤其是重点高校普遍下设百余个学科,每个学科的应用软件也多种多样,应用特点更是千差万别。山东大学仅国家级、部级和省级重点实验室就下设有晶体材料、微生物技术、燃煤污染减排、耳鼻喉科学卫生部等数十个学科,如何根据不同学科的科研应用特点设计好系统,打造一个能承载不同应用的通用平台,对山大、对厂商来说都是一个重大的挑战。
一揽子方案提供一站式无忧服务
基于多年深耕教育产业的经验以及对用户应用需求的精准把握,浪潮特别提供了基于刀片集群的天梭TS10000高性能集群系统,计算峰值达10万亿次,采用目前业界最先进的32nm制程工艺英特尔至强5600系列处理器。浪潮天梭TS10000是专门定位于超大规模、超高性能科学计算应用的高性能服务器集群,在设计上注重开发不同级别的软件应用,涵盖双路、四路、八路、GPU服务器丰富节点,能够促进系统内部服务器、存储、应用之间最大限度趋近协同运算,全面满足了山东大学不同科研项目对不同应用的高计算需求。值得一提的是,在高校超算中心的部署还率先采用先进的水冷系统,为山东大学提供了一个稳定、高效的运行环境。
刀片服务器的优化部署,事半功倍地解决了系统搭建难题。由于在空间占用、能耗、管理上的明显优势,为了更大的提高计算密度,刀片服务器已经成为HPC大势所趋。从部署环境来看,山大机房虽然按照数据中心标准建设,但是面积只有5*10平方米,要承载上万亿次计算峰值的运算,空间、能耗、散热以及管理问题都比较突出。针对山大机房部署密度的特殊要求,本方案采用了80个刀片服务器组成的集群节点,而且动用了全球最高密度的HPC专业刀片服务器NX560T,基于Intel 5600系列处理器,强劲性能无与伦比。除此之外,刀片服务器还具有最直接的优点就是–减少布线,极大地简便了后期维护工作。由于山大超算中心对超级计算机高密度、紧凑性安装的特殊要求,传统的精密空调制冷方式已经不能满足单台机柜高发热量的散热要求,故浪潮提供了机柜级的液体冷却(LCP plus)系统,每单位的热传导能力是空气制冷的3,500倍,能够满足突发负载带来的散热倍增需求,避免了系统高负载时过热宕机,保证了系统7*24小时可靠运行。尤为重要的是,相比传统的精密空调制冷,先进的水冷技术能够降低运行噪音,节省30%的能耗,大幅降低了成本并给山大的老师们营造了一个安静的研发环境。
引入八路天梭TS850 胖节点
此外,考虑到山东大学科研项目涉及到许多特殊复杂计算应用,在集群上效率极低,为此该系统还采用天梭TS850,以作为ansys等软件等运行平台,这款八路服务器是国内第一款自主研发的大型服务器,采用紧耦合共享内存、硬件分区等高端服务器技术,有64核心,128线程,系统平衡,性能强劲。nehalem-EX推出以后,多路X86服务器的性能提升数倍,已经与Non-x86服务器基本相当,甚至超越了多类发展缓慢的RISC服务器,突出的性价比优势可能让Non-x86服务器丢失HPC领域的最后一块领地。
在系统部署中,智能化的管理成为化解技术壁垒的有力武器。该系统采用浪潮自主的监控管理系统,所有系统管理均可通过浏览器进行操作。此外浪潮"360°专家服务"为山大提供了完善的项目实施、专业的技术培训、技术支持和售后服务,使山大的老师们可以快速上手、简易操作。
目前,该系统已正式投入使用,正承载着计算化学、分子动力学、流体力学、CAD/CAE等前沿应用。山东省高性能中心负责人肯定了浪潮天梭TS10000系统的优异性能,表示浪潮的工程师专门根据用户需求来定制出最适当的产品解决方案,能够弹性满足各种应用需求,从而避免了系统建设的重复投资。可以相信,这套高性能系统的建成,将为山东大学的老师们提供更好的研究工具,大幅度提高老师们的工作效率,成为国家高素质人才培养、高水平科学研究和科技成果转化的重要基地。
山大高性能中心的建设其实是当前高性能发展趋势的一个缩影,反映了HPC领域新的应用趋势变动。个用户的需求不同,关注应用,关注客户的应用价值才是推动高性能计算发展的最佳途径。客户不断成熟,需求也逐渐从峰值浮点等技术层次转向系统效率、易用性、管理性等应用层面,从实际业务和TCO的角度考量HPC。浪潮以应用为起点、专业化领先的服务理念很好地满足了客户的实际应用需求,值得业界借鉴。