四核巴塞罗那与曙光TC4000A双剑合璧显威气象局

气象预测一直是高性能计算机产品的主要用户之一,其为人民提供日常生产、生活所必须的信息资料。作为国内服务器行业领军企业的曙光公司,在气象行业应用中有着广泛的经验,早在2002年,曙光公司就推出了基于MM5模式的气象专用机,充分优化了并行机上的MM5模式。随后,曙光公司在2004年为气象行业完成了从32位平台到64位平台的移植。在今年4月,曙光公司又首次完成了WRF模式在X64高性能机群系统上的业务移植,开创了国内在64位机上做WRF模式业务的先河。近期,曙光公司又首度将AMD公司新推出的巴塞罗那处理器成功应用在了气象行业,打造了成熟的四路四核信息化服务系统,为苏州气象局提供了一套集高可用性、高稳定性于一身的科学、成熟的气象预测平台。

高性能需求的气象预测平台

气象预测是气象科学中发展最为迅速的一个重要组成部分,他所研究的大气运动关系到区域重要灾害性天气的生消。它一方面应用卫星、雷达、风廓线仪和自动观测站等一系列新的探测工具,获取观测实时数据;另一方面通过数值模式,对天气变化过程进行深入的模拟研究和预报试验。

苏州气象局是该行政区域内最大的气象事业组织,负责该行政区域内重大灾害性天气跨地区、跨部门的联合监测、预报工作,需及时提出气象灾害防御措施,并对重大气象灾害作出评估,为本级人民政府组织防御气象灾害提供决策依据。在变换莫测的自然天气状况前,苏州气象局需要一套高性能计算机系统,来满足其在气象预测工作中的各种需求。

首先,气象预报有着惊人的计算量,其必须在规定时间内将各个观测点传输来的实时数据进行分析、计算。而且,伴随人们对气象预测精度所提出的越来越高的要求,气象预报精度的的范围从以往的几百公里缩小到了几公里,这就更加提高了计算模型的运算量。其次,在高速的运算过程中,各个CPU之间的通讯量也非常巨大,整个系统需要有高性能的通讯网络。另外,气象预测具有实时性的特点,整个预测系统需要定时定点运行,无需人工干预,具有良好的管理控制性能。

本次针对苏州气象局的应用需求,曙光公司将已获得广泛好评的曙光TC4000A机群系统与AMD公司新推出的巴塞罗那处理器相结合,为苏州气象局提供了一整套完善的解决方案。

高端配置的曙光TC4000A

曙光公司本次为苏州气象局配置的TC4000A机群系统由20台计算节点、2台I/O节点、1台管理节点和1台登陆节点组成,系统采用Infiniband作为计算网络/数据传输网络,同时配备千兆以太网作为管理维护网络,各配件设施的完美组合,奠定了整体系统高达25600亿次/秒的运算能力。

天气预报具有很高的时效性,要求在规定的时间内得到预测结果,因此机群系统的运算能力就需要面对海量气象数据的挑战。曙光公司在苏州气象局的机群系统中,用最新2.0GHz的AMD巴塞罗那四核处理器为系统打造了强大的浮点、定点运算能力。这些作为运算核心的高性能处理器,镶嵌在作为计算节点的曙光天阔A820r-F中,每个节点在2U的机架空间内集成了四路四核的体系架构,且均可进行并行计算,形成了强大的处理能力,完全可满足系统的运算需求。

为提高机群系统的整体性能,机群系统的I/O性能也是需要突破的一大瓶颈,否则机群的运算能力将会受到制约,无法显现四核处理器高速、流畅的运算性能。曙光公司在该系统中将用于计算数据通讯的网络和管理、登陆网络分开搭建,不同用途的数据分流传输,解决了管理系统数据与运算数据争抢带宽资源的窘况。

在计算数据网络中,双路双核配置的曙光天阔A620r-F担当了系统中的I/O节点,其通过心跳线做成了高可用系统,可为整个系统提供持续的I/O服务。在I/O节点中,Infiniband网络作为接入数据网络,其提供了高达20Gb/s的双向带宽,延迟只有几个微秒。并且,每台I/O节点配置了1块4Gb/s的光纤HBA卡,分别和具备2个4Gb/s主机通道的光纤磁盘阵列柜相连,为系统提供了超强的存储空间和强大的I/O能力。

在管理和登陆通讯网络中,节点也同样采用天阔A620r-F,加上专用的千兆网,承担起和其它网络的通讯以及系统管理、监控的责任。作为管理、登陆节点,速度不再是苛求的目标,长期平稳的运算性能是用户更为关心的特质。因此,在管理节点机的配置中,设计者别具匠心的在A620r-F中采用了可提供病毒防护功能的高性能BIOS;可以选单/双通道SCSI RAID配置,支持在线恢复RAID阵列;多网卡冗余体系,保证系统稳定均衡的处理网络负载。各种配置,为管理节点提供了细致入微的高可靠性。

在机群的操作系统中,配有曙光公司独家设计的第二代监控系统,采用并发机制,能够按用户的需求伸缩管理配置功能,可对新增节点提供配置、管理的功能,使其自动纳入管理范围。该种采用模块化形式设计的管理系统,大大提高了系统可靠性和可管理性。

另外,整个机群的机柜系统采用符合工业标准的41U机柜,内部含网络布线系统,支持强电和弱电分离,可以实现整个机群内24个节点100ms自动分时上电,减少了因集中上电对电源系统造成的冲击,为系统提供了更好的安全性能。

成熟科学的解决方案

曙光4000A超级计算机机群系统是一款成熟的产品,在实际应用中的曙光4000A,平均无故障时间(MTBF)突破了25万小时大关,其高稳定性和可靠性已经得到了实际应用的证实。在本次为苏州气象局设计的超级计算机解决方案中,曙光公司将成熟的产品与当前信息技术的发展趋势相结合,在整个方案中体现了优异的先进性、扩展性、兼容性和完整性。

先进性

在江苏气象局的信息化解决方案中,无论是在硬件还是软件方面都体现了曙光公司产品的技术先进性,其顺应信息化产业的主流发展趋势,集合新产品和曙光公司的技术优势,为用户提供了更高性能的新世代产品。

在硬件方面,该解决方案的先进性主要体现在其所配置的"巴塞罗那"四核处理器上。同以往的双核处理器相比,该款AMD新推出的四核处理器,不仅仅增加了CPU Core的数量,其在每一个CPU Core内部,将SSE执行单元加宽至128位,极大的提高了单核心的浮点处理性能,平均性能提高了54%。同时,巴塞罗那处理器沿袭了AMD独特设计的集成内存控制器,使CPU到内存的路径更短,并在内存带宽上采用了一系列优化技术,使得在不做其他改动的前提下,内存性能比双核皓龙提升50%,它们是构建苏州气象局高可用性信息化系统的奠基石。

整个苏州气象局信息化系统空载运行功耗仅10千瓦,满载最大运行功耗也才达13千瓦,这一切节能优势都是从细小的处理器节能技术展开的。巴塞罗那处理器在节能方面采用了更精细的内部控制,拥有业界首次使用的双重动态电源管理(DDPM)技术,能对CPU和内存控制器分别独立供电,使得在功耗降低的同时获得更高的内存带宽。

另外,巴塞罗那更进一步提供硬件层的快速虚拟化索引技术(RVI),显著地提升内存访问的性能,提升虚拟机与物理机之间的数据传送及翻译转换,使虚拟化性相比双核产品能有75%的提升,其在CPU底层为虚拟化技术提供了良好的硬件支持。

尽管四核的巴塞罗那处理器性能较比双核提升许多,但其售价却并未成倍增长,加之其通用的标准特性可与双核产品配件完全兼容,这使得巴塞罗那处理器具有了前代产品无法比拟的性价比。在信息化服务的实际应用中,其也使得服务器产品倍受用户青睐。

在整个解决方案的软件方面,曙光公司自主研发的,面向用户和网格的系统管理软件也同时体现了解决方案的先进性。该机群管理软件可提供非常直观的监控功能,可跨操作系统和硬件平台采集信息,将这些信息有效的汇总和显示,实时监控系统各节点的工作情况,有效监控整个机群的用户环境。并且,监控系统采集的系统信息、硬件信息和电源信息通过独立的I²C网络传输,保证了监控的独立性和健全性,还可用图形展示的方式对各节点的单项数据进行对比。

扩展性

在科学技术飞速发展的今天,任何一套信息化解决方案都必须考虑到用户的需求变化,一套信息化系统如果不能适应用户需求的变化,不具备良好的扩展性,它势必只有短暂的技术生命,而且是对用户投资的浪费。

在曙光公司为江苏气象局提供的信息化解决方案中,各节点机采用目前最先进的AMD16路服务器的系统架构,既满足了整个系统平台的应用要求,又满足了今后系统升级后的需要。

负责计算数据通讯的Infiniband网络,可以使现有系统具有良好扩展性,满足下一代系统的要求。它可实现PCB上部件与部件间的互连,也可以用来实现一种超出机箱外部的底板之间的互连。并且,每个链路都是基于4根信号线的2.5Gbps双向连接,在扩展的产品部件的同时,还提供了良好的性能。

曙光TC4000A的机柜、电源、系统管理都可以使系统无缝扩展至更多节点。视频切换系统可以在线扩容至99个节点;电源的设计可以提供4个机柜的用电量;机群操作系统可以无缝扩展,可直接将扩容的节点机纳入当前的系统中进行管理、调度;当任务量增加,需要增加计算单元时,系统只需要简单的增加节点设备即可,这样保证了当前的投资,而且保证了系统的完整性。

兼容性

在信息化服务市场中,充斥着各式各样的软硬件产品,用户也会根据自己的需求选择不同的产品进行组合搭配。因此,用户的信息化平台应该是一个具有良好包容性的中性平台,其可在硬件上兼容各厂商的标准配件,在软件上平稳运行各种操作系统和应用程序,只有这样的应用平台才具有良好的实用价值。

在苏州气象局的信息化解决方案中,曙光机群系统的良好兼容性得到了充分体现。该系统中,普通PC机能够运行的应用软件都能直接在机群系统上运行。另一方面,由于目前机群技术的广泛使用,机群成为了目前大型机和超级计算机的主流,绝大部分高端的并行应用软件都能很好的在该机群系统上运行。

在应用方面,该系统处理器可兼容64位和32位的应用,普通的32位应用软件可以不经过重新编译直接运行在这样的系统之中,用户可以由32位平滑的过渡到64位。同时,系统中还提供有标准接口以供和其它系统相连接,其在用户需要时,可很好的和其它的机群系统、大型主机实现对接。

在操作系统中,曙光4000A采用具有更好开放性的LINUX操作系统,其比封闭的UNIX操作系统具有更好的兼容性,其也是目前服务器中应用最广泛的操作系统。另外,曙光机群的管理系统也具有很好的兼容性和跨平台性,它能很好的运行在目前主流的操作系统之上,包括Linux、UNIX和Windows,还能完美的实现异构集群系统的管理。

完整性

曙光公司为苏州气象局提供的信息化解决方案是基于气象行业应用的整体性方案,从系统的软硬件配置,一直到应用调试;从产品设计安装,到运行人员培训,处处都体现了曙光公司信息化解决方案的完整性,其为用户提供了一站式的服务,可满足用户的各种需求。

作为气象预测系统,曙光公司根据多年的应用经验,为苏州气象局提供了完整的应用方案。其中包括了气象业务系统运行所需要的开发环境、并行环境,还提供了中尺度气象预报模式所需要的前处理和后处理系统。而且,曙光公司还具备很强的系统整合能力,增强了整个机群系统的单一系统映象功能,原有机群系统上的应用软件无需作任何改动即可正常的在新系统中运行。

在培训方面,曙光公司为苏州气象局提供了一系列的培训,课程分别针对:普通用户、系统管理人员、开发人员。培训的内容包括从集群的简单使用到并行软件的研制和并行算法的设计,从系统的管理和日常维护到设备的原理等一应俱全。整套培训体系有机房的现场培训、课堂讲课、上机实习等多种方式。在有完备的培训的同时,曙光公司又为用户提供了完备文档,做到了售后服务的完整性,使用户不仅拥有设备,更能用好设备。

结束语

曙光4000A是曙光公司和国家智能计算机研究中心共同研发的,基于Linux的超级服务器系统,为当前国内最大的IDC数据处理主机之一,其在各行业领域有着广泛的应用,并且成功登陆全球超级计算机排名的TOP10,其在产品技术上的科学性、成熟性已成为中国高性能计算机产业的标杆。本次在苏州气象局的成功应用,为气象事业的发展增添了新的活力与保障,极大的提高了苏州区域气象预报的精确度,也为全国气象行业信息化发展提供了宝贵的应用经验。