曙光助力中国气象界构建高性能计算机系统

人类生存和发展在很大程度上依赖于自然环境。在这个自然环境中,天气气候是一个重要的因素。我国特殊的自然地理位置,决定了我国是世界上自然灾害最多的少数国家之一,而在这些灾害中,气象灾害尤为严重。暴雨、洪涝、干旱、台风、冰雹、低温冻害等灾害性天气气候对国民经济所造成的损失约占自然灾害造成损失的70%。

随着经济的发展和社会的进步,人们对天气气候环境的依赖和对未来天气气候环境的预测需求越来越迫切。实践证明,经济越发展,灾害性天气气候造成的危害就越大。同时,气候又是一种重要的自然资源。合理利用气候资源指挥生产、安排工作,所创造的直接与间接的经济效益也是十分巨大的。在许多关键时刻,气象工作发挥着特殊的作用。

挑战与机遇并存 中国气象事业稳定发展

正是认识到气象工作对于国民经济与社会发展进程的重要性。近年来,我国在气象事业方面的研究与建设加大了投入机制,气象事业的发展目标亦得到了预期中的实现。中国气象界关于高原环境与暴雨量的研究尤其加大了力度。

但是在日益严重的环境恶化问题背景下,中国气象局相关研究所的人员表示,目前气象部门的科研压力非常大,一方面近年来频繁出现的极端恶劣天气要求我们要积极进行科学研究和探索以应对这些气候变化等引起的灾害性天气。另外一方面新的气象模式的开发也需要借助高性能计算机进行。众所周知,气象领域中往往应用数值模式,并进行模拟试验,这就涉及了物理过程的设计与计算精度的选择,特别应用于实时业务预报时需要时效性,高速正确的计算就更是必不可少条件。

中国气象局武汉暴雨研究所和成都高原气象研究所均是由国家科技部、财政部、中央编办批准成立的国家级公益类非营利性科研机构。分别对我国陆地暴雨和高原气候变化展开了专业密集的研究分析。暴雨所的研究重点学科领域包括暴雨监测技术研究、暴雨形成机理和预测方法研究、暴雨预报应用研究和暴雨灾害评估与对策研究等,同时开展中尺度暴雨外场监测试验基地建设和中国暴雨(资料)数据库建设。而高原所的研究工作主要涉及高原气候变化、高原天气动力学、中小尺度天气分析与预报、灾害性天气气候预报预测技术、数值模拟、遥感技术及其应用、人工影响天气、气候资源开发利用、自动遥测仪器研发等多个方面。

经过多年来的研究与发展,暴雨所与高原所为我国气象行业的壮大做出了重要的贡献,在数据积累与经验分析方面取得了重大进展。

应需配置:资源分区 高效建设

作为国内知名的解决方案提供商,常年的经验积累让曙光公司深知众多的气象模式以及科研需求使得系统对于文件系统有着很高的要求,除了要能够满足大容量和可扩展性以外,高性能、高I/O聚合带宽、高IOPS则是气象业务对文件系统的基本要求。因此,暴雨所和高原所的高性能集群系统建设将使用业界最先进的曙光并行存储系统ParaStor。因为ParaStor是具有I/O带宽高、扩展性强、每秒并发数IOPS高,支持业界最先进的高速互联网络、性能高等特点,完全能够满足业务运行和科研需求。

在综合与总结中国气象局武汉暴雨研究所和高原所的业务需求的背景下,并基于对各个气象部门目前的使用情况进行调研的结果基础上,曙光公司为暴雨所和高原所提供了一套以资源分区为主的系统方案。将暴雨所和高原所的建设分成业务区与科研区两部分,并以此为基础来构建高性能计算系统。

据介绍,业务区将采用目前主流的X64服务器构建的集群处理方案组建高可用集群系统。目前全球Top500排行榜上,80%以上的系统均是采用X64架构(AMD X86_64和INTEL EM64T)组建。数值模式区对计算机的性能和稳定性都提出了很高的要求,而曙光高性能计算机可以很好的满足这个要求。同时,集群架构相比于传统的NUMA或者RISC SMP大型机具有更高的性价比。

科研区则采用资源分区的方式,与业务系统逻辑上分开,互不影响,既满足了对外服务和对内科研需求,又充分考虑了安全、可靠的设计原则。这样的设计既满足了系统作为单一大系统运行的要求,又可以满足划分小系统的要求,且各个小系统互不干扰。

高效能·高保障 曙光构建高效能计算机集群系统

从两个气象研究所的业务和科研需求中可以看出,其真正需求的是超10万亿次高效能计算机的要求。而曙光高效能计算机力求在体系结构、多处理机芯片组、高性能节点操作系统、高可扩展互连网络、高吞吐率通信软件、多线程分割全局地址空间编程模型及编译器等核心技术上实现了较大突破。并提供高效能计算机的高密度节点、可靠的系统结构、高效能海量存储、并行文件系统、大规模系统的管理软件、系统级高可靠性技术、超大规模并行算法等产品及技术,可有效保障系统的高性能、可编程性、可移植性和稳定性。

该方案均采用曙光A840r-G服务器为计算节点。唯一有区别的是暴雨所的系统共采用27台SMP服务器(其中13台配置48GB内存,其余14台配置96GB内存),而成都高原所则采用了28台SMP系统服务器(其中14台为大内存节点,内存容量为96G,其余节点内存为48G)。

在I/O节点上,均选用4台曙光高性能A620r-G双路服务器作为存储节点构成并行存储系统。每节点配置两颗AMD Opteron 6128 八核CPU(2.0GHz,共16核心),每节点配置16GB DDRIII ECC内存。内存与CPU之间采用直连架构,消除内存访问的延迟与瓶颈。

为了构建登录和管理节点系统,两个方案均配置2台曙光高性能A620r-H双路服务器,节点配置两颗AMD Opteron 2431六核CPU(2.4GHz,共12核心),每节点配置12GB DDRII ECC内存。

另外,考虑到系统的散热性特点,整个系统共采用4个服务器标准机柜,采用风冷方法进行系统散热。在两个方案中还均配置了1台曙光Clusnap Checkpoint控制器,带有一块16G断点(Checkpoint)高速缓存卡(16GB曙光SysCache卡),可用于Checkpoint时的高性能非易失性写缓存,能够完全满足客户端对于系统的招标要求。

总的来说,暴雨所的方案配置有效满足了基于暴雨预报应用研究和暴雨灾害评估的庞大数据库的数据建设需求;而高原所的系统配置也有效的满足了复杂多变的气候数值模拟需求。曙光公司表示,该方案的设计遵循高性能、可扩展、高可靠和易管理的原则。

高扩展·高稳定 曙光A840r-G满足应用与发展需求

曙光介绍,此次主要采用的曙光天阔A840r-G是曙光公司2010年主推的服务器产品,该产品可稳定运行Windows、Redhat Linux、Suse Linux等多种主流操作系统,是能适应核心级应用的新一代服务器,它具有处理速度快、可用性强、易管理、可靠性高等特点。它在确保计算的精度之余,还充分满足客户对于计算能力不断增长的需求,让产品能够充分满足客户应用于科研等计算需求复杂的行业中。

它采用AMD最新一代8或12核Magny-Cours处理器,可最大支持48个处理核心,可支持先进的四通道DDR3 ECC内存技术,内存容量最大可达512GB,可支持最多达10块热插拔SAS/SATA硬盘,是一款提供了集价值、性能和可扩展性为一体的完美组合。

值得一提的是,曙光A840r-G服务器拥有极大的可扩展空间,其可扩展性主要体现在长远的应用价值与资源的合理应用。A840r-G支持带电池、高缓存的高性能SAS RAID,可保障在提供强大的性能的同时保证数据的安全。另外,A840r-G还将支持各种主流PCI-E外插卡,而与此同时,A840r-G仍可选支持高端显卡、GPU卡,十个硬盘扩展位为用户海量的内存需求以及强大的内存扩展能力提供了无限可能,为日后对计算能力的升级预留了足够的上升空间。

如今,该系统方案早已经投入到实际运营当中,不仅能满足暴雨所及高原所对目前的区域模式开展短时天气预报和区域天气气候模拟研究等主要需求,而且有效的将用户现有技术与曙光公司的硬件、软件以及曙光公司的服务产品完美的融合在一起。并通过超级计算技术、可视化技术、数据访问和管理技术为国内的气象用户提供最佳的整体价值,有效助力中国气象事业的蓬勃发展,提升国民生活水平,用科技的力量抵消灾害的最大伤害程度,可有效保证人民的生命财产安全。