引言:随着信息化的发展,各行各业对于高性能计算机的应用需求越来越明显。曙光系列高性能计算机的诞生为推进我国的信息化建设做出了重要贡献,尤其在研究大气、陆面、工程、生态系统的动力、物理、化学过程的基本规律及其环境相互作用的数值模拟和同化理论与诊断分析,为冰川、冻土、沙漠基础研究,高寒干旱气候、生态、环境研究,以及工程、流域研究、高原气象、变化和的监测、预报及控制提供新理论和新方法,起到了重要的作用。助力国家重点研究课题的顺利展开。
用户背景:中科院寒区与旱区环境与工程研究所面对世界科技的发展态势和我国的战略需求,主要针对我国西部特殊的自然生态环境进行大规模的沙漠、冰川冻土、盐湖、青藏高原生物等的野外考察,摸清西部特殊领域的资源财富。以展开重离子物理、核辐射技术,选择氧化催化、固体润滑材料、石油地质,盐湖资源开发利用、沙漠化防治、青藏铁路、公路冻土防治、高原大气等学科研究,力求西部经济取得重大发展做出重大贡献。1978年以来,取得各类科研成果1650多项,获国家和省部以上重大成果650项。
用户需求:
随着国家重点课题建设的展开,该所在盐湖资源开发利用、沙漠化防治、青藏铁路、公路冻土防治、高原大气等学科研究显得更加迫切。而作为计算工具的计算机在计算速度和负载承受能力上均不能满足国家重点课题的需求。因此继续一套能够用于寒旱所的并行算法研究与科学计算的系统,以满足多层次课题组科研人员的使用需求。为了进一步做好科研工作,在中科院的统一组织下,该所组建了兰州中科院超级计算分中心。
针对性的解决方案:
针对兰州超算分中心对高性能、可扩展、高可靠、易管理等特点的需求,曙光公司经过分析之后,为兰州分计算中心配置了曙光天潮5000系列超级计算机构建高性能计算集群系统。本套集群系统用于大规模高性能计算,因此对性能有很高的要求。本方案从计算子系统、网络通信子系统以及存储子系统三个方面都进行了优化设计,力图设计性能平衡的系统,充分适合多种类型应用需求。
1、硬件方案:曙光公司为用户提供的曙光5000高性能计算集群硬件系统包括计算子系统、存储子系统、网络子系统、管理诊断子系统、接入子系统以及基础架构子系统五个部分,系统整体架构如下图所示:
2、软件系统:曙光5000高性能计算机提供丰富的软件系统,包括操作系统、编译器、调试器、函数库、并行通信库、全局共享并行文件系统等基础软件,以及曙光公司专门为业内高级用户开发的Gridview2.0综合监控管理系统、PowerConf智能功耗控制系统软件和业界领先的Platform作业管理软件。
计算子系统系统要求需要具备很高的峰值性能,能够支撑大量作业的并发。本方案的曙光5000计算子系统可以提供10Tflops计算能力,具备1152个2.2GHz计算单元和2.56TB海量内存,有很强的计算能力。计算资源既可以整体使用,也可以划分为多个逻辑分区灵活使用,以适应不同类型计算任务的需求。
对于超大规模并行作业和通信密集型作业,互联带宽和网络延迟性能影响数据通信速度,从而影响并行计算效率。本方案提供的Infiniband网络系统互联双向带宽达到40Gb/s;同时我们采用最新的ConnectX技术,并采用高集成度电路设计,MPI层软件延迟不超过1.5微妙,是目前业界性能最高的解决方案,上海超算曙光5000A实测1920结点的Linpack效率仍能达到78%。
对于IO密集型作业,传统集群系统效率低下,因此本方案选用了目前先进的全局共享并行IO技术构建存储系统,并通过高速的Infiniband网络共享全部计算节点。
曙光5000面向10-200Tflops级别超大规模高性能计算需求,具有可自由伸缩、高度可管理、高可用、高性能价格比等诸多优点,是曙光公司超级服务器的又一顶峰之作。曙光5000A高性能计算机解决了大规模集群部署、高效能计算、跨平台管理、跨操作系统管理、系统软硬件运行状态监控等混合平台应用等一系列技术难题,整体技术在国内具有领先水平,达到国际同期同类产品的先进水平。
曙光5000高性能计算机为用户提供了一个具有海量存储能力和超级计算能力的高性能计算环境,包括登录结点池、计算资源池以及存储资源池等。
高性能计算用户可以利用WEB、应用集成GUI以及Scripts三种方式连接到集群登录结点提交作业,并通过全局共享的并行存储资源池存储应用程序的输入文件和输出结果。
曙光公司在兰州地区拥有大量高性能计算客户,其应用领域涵盖了气象海洋、生物、物理化学等多个学科。此次系统采用曙光方案,曙光公司拥有得天独厚的优势,可以根据用户的要求整合兰州地区分散的超级计算资源,构建本地区的综合计算平台,不存在任何兼容性问题和技术障碍。
方案特点:
先进性和成熟性:充分采用符合国际标准的、先进并且成熟的计算机系统、存储系统、以及操作系统等先进技术和产品。
互联性和开放性:计算机系统选用开放式系统,具有多平台多系统的互联支持能力,以满足用户开发和使用的要求。
高可靠性、高可用性、高可维护性:高性能计算系统要求7×24小时的持续服务能力,因此在方案设计时,首先应考虑选用稳定可靠的产品和技术,使其具有优秀的RAS特性和必要的冗余容错能力,为用户提供高可用服务。要求系统在硬件配置、操作系统、以及系统管理等环节采取严格的安全可靠性措施,保证系统的正常运转。
可缩放性和可扩展性:系统不但要能满足现阶段的业务要求,而且要能满足将来业务的增长和新技术发展的要求,要在原有设备继续发挥作用的基础上,保证用户能方便地增加或调整设备,改善系统功能和性能,支持将来系统不断更新和便于升级。系统结构应能支持主要的协议、标准和规范,应能运行当今流行的软件环境下开发的各种应用系统并可以在线软件升级、调配;同时应留有充分的扩展余地,并保证系统的完整性不受影响,保证系统可以平滑升级、扩容。
可管理性:全系统配置功能丰富的高性能计算机管理软件,包括Gridview2.0集群综合监控管理系统、PowerConf智能能耗管理系统、机柜智能监控系统等。用户借助曙光5000A丰富的软件管理工具可以大幅度简化高性能计算系统管理工作量。
绿色节能:高性能计算机系统的能耗问题已经成为限制其发展的首要问题。本方案本着绿色节能、降低用户后期使用成本的目的,设计了多种有效的节能方案。主要包括低功耗的处理器系统、高效能刀片服务器以及PowerConf智能功耗控制系统等。通过这些业界领先的节能方案,真正实现了"绿色计算"的目标。
小结:
曙光针对兰州超级计算分中心量身定制的大规模高性能计算的集群系统已经部署完毕并投入实际运营中。此种大规模高性能计算的集群系统,完全满足了用户目前对于计算机超强计算能力的需求,甚至在性能上已经超越了用户的预期,真正实现了高长时间的持续服务能力,有效的促进了中科院兰州分中心的并行算法设计、自动并行工具研制、数据模拟与仿真、应用领域并行算法等方面的研究。曙光为中科院设计实施的解决方案经过实际运营检验已经获得了用户的高度肯定和一致认可。曙光高性能计算产品在中科院各地超算分中心的成功应用对于我国重点课题的研究发展有着重要的意义。
关于曙光:
公司是一家在科技部、信息产业部、中科院大力推动下,以国家"863"计划重大科研成果为基础组建的高新技术企业。它以中科院计算所、国家智能计算机研究开发中心和国家高性能计算机工程中心为技术依托,拥有强大的技术实力。曙光系列产品的问世,为推动我国高性能计算机的发展做出了不可磨灭的贡献。2008年6月,每秒运算233万亿次的超级计算机曙光5000A研制成功,于同年进入全球超级计算机TOP500排行榜前十名,成为美国之外速度最快的计算机,从而使中国成为继美国之后,第二个能研制百万亿次高性能计算机的国家。
2006年7月,占地面积60余亩的曙光天津产业基地落成投产,实现民族高性能计算机产业的历史跨越。曙光高性能计算机连续13年稳居国产高性能计算机市场第一,拥有国产高性能70%以上的份额,并在高性能集群领域实现了国产机对进口产品的超越。曙光公司生产的系列服务器以技术先进、性能卓越、服务优良见长,曾获"国家科技进步一等奖、二等奖"、"中科院科技创新特等奖"、"2001、2003、2004中国十大科技进展"等多项国家级殊荣。
长期以来,曙光始终专注于服务器领域的研发、生产与应用,依托超级计算机的扎实功底,立足自主研发,通过不断技术创新,构建出拥有完全自主知识产权的全系列精品服务器,能全面满足用户从超级计算机到普通PC服务器的各项应用需求,在互联网、金融、电信、生物、气象、石油、科研、电力等多个行业有着大量成功应用。