曙光4000L服务器面向网格和HPC机群系统方案

一、项目需求分析:跨行业高性能计算+网格拓展 
  
    甘肃省计算中心是直属于甘肃省科技厅的科研事业单位,是全省计算机技术应用、推广和服务的专业化研究与开发机构。2005年为了进一步加强高性能方面的实力,携手曙光建立了甘肃高性能计算中心,旨在发展甘肃省高性能计算,带动甘肃省计算技术、信息技术和相关产业向更高水平发展,解决甘肃省国民经济与产业发展、社会和科学进步、国防和国家安全等一系列挑战性问题。 
  
    甘肃计算中心主任胡铁钧表示:“这几个‘花小钱’的雄心勃勃的行动,只是我省计算能力和运行方式的一小步结构性变化,带来的却是我省科研基础能力的一大进步:以前我省的众多科研人员挤出宝贵时间,花费大量科研资金,跑到外地去排队进行大型运算;今后他们只需坐在办公室里,轻点鼠标,向甘肃省计算中心的‘窗口’发个申请,提交运算任务,省计算中心就把任务分配到闲着的计算机上运算,不长时间后,运算结果就会出现在科研人员的电脑上。” 
  
    甘肃省超级计算中心致力于建成一个开放可共享的高端计算环境,为政府各机构、企事业、大中专院校、科研单位提供超级计算能力、海量信息处理、超大型数据库管理、尖端技术科研开发的服务,将有限的计算延展为无限的可能。最终形成应用环境、用户培训、科普宣传、应用开发、科学研究、人才培养等功能齐全、布局合理的一流信息化平台环境和产业基地。 
  
    在建设周期方面,初期希望在甘肃省计算中心建设管理结点的集群系统,准备购置主要设备、软件,构建应用环境,实现计算能力2000亿次/s,并随后将进行二期扩容工作,采用12个计算节点的AMD275 双核CPU,达到4000亿次/秒的运算能力。高性能计算机采用中国电信宽带网和中国教育网传输数据。同时与兰州大学构建网格试验床。二期建设将连接兰州大学、兰州交通大学、兰州理工大学、中科院资源环境科学信息中心等大专院校、科研院所的高性能计算系统,完成高速网络接入(光纤主干网);实现高性能计算资源的连接和共享,形成一个具有强大管理能力和计算能力的平台。三期建设将逐步完善网格系统,吸纳有一定计算能力的科研单位,提高计算能力,实现高性能计算应用,研究网格系统向其他领域的应用拓展、应用。 
  
二、 解决方案:网络HPC机群系统大显其能 
  
    经过对需求的分析,可以确定甘肃省高性能计算中心(网格系统)的建立是利用网格技术实现大规模科学数据集的协作虚拟化,实现高要求数据分析所进行的分布式计算(共享计算能力和存储空间)。网格将在科学计算、信息集成领域一展身手,提高甘肃省的科学计算能力,是典型的高性能计算应用,需要大规模HPC系统。 
  
    对应于甘肃省高性能计算中心的实际需要,曙光公司在本次项目中采用了基于机群架构的设计思想,采用最新的超级计算机曙光天潮TC4000L,该款超级服务器是一台成熟的产品,采用大规模机群体系结构(Massively Cluster Computing),其中采用了许多创新技术,在平衡创新和可靠性上采用了冗余设计方法,每个创新部件都有成熟的产品部件与之对应,使高性能计算机的可扩展性得到很大提高,同时保证应用饱和性能的稳定。 
  
    曙光4000L大规模机群系统的规模为22个计算节点,每个计算节点2颗AMD Opteron 64bit处理器,总共44颗处理器,1个I/O节点、1个管理登录节点,均为双AMD Opteron处理器节点。在应用性能方面提高MCC系统应用饱和性能的方法包括,提供轻核心操作系统,单用户通信软件、并行I/O库,支持多种操作系统;而在系统动态重构方面可提高MCC系统的管理能力,提供多种使用模式,包括开发大规模KVM(Keyboard-Video-Mouse)管理网络,操作系统动态加载等。整体系统架构如下。
  
     
    不过,虽然有了这台超级计算机,省计算中心还有着更为雄心勃勃的行动??建立近两年在国际上开始发展的网格,针对甘肃省以高能计算所为中心建立甘肃超级计算网格的设想,在此套解决方案的网络子系统设计方面,本项目为曙光4000L大规模机群系统配以3套网络,分别是高速计算数据传输网,千兆数据交换网络和管理网,分别用于并行计算时的数据交换、计算通讯以及I/O读写;用户接入、系统管理控制。高速计算网采用InfiniBand网络,千兆数据交换网络,两套网络可以互为备份,即千兆以太网可以作为InfiniBand网络的备份,千兆以太网可以作为千兆以太网的备份。而且本次项目中所提供的网络交换设备均在曙光机群服务器中有大量的成功应用案例,所选用的产品无论是产品质量、性能、互联、互通性都有所保证。 


  
  
    另外,曙光4000L采用数据交换网和管理网分开的方式,有效地减轻了对数据网的负载,做到系统管理对业务网络完全没有干扰。接入管理网采用了百兆以太网,在本项目的曙光4000L机群系统中,采用了1台DLink公司的DES-1024,24端口百兆交换机组成一个百兆以太网,各节点通过它连接成百兆的管理网队整个机群的管理、监控。而千兆计算网络主要用于机群的、登录、任务调度等系统管理员常用工作。这个网络既是用户接入、系统管理网络,也是高速数据网的备份网络。通过网捷网络的IronView网络管理软件,网络管理员可以通过一个中央工作站控制所有网捷网络产品软件和配置的升级,极大地简化了网络分配、故障诊断和清除,从而减少安装和维护一个世界级网络基础设施的总成本。
    在规划、建设曙光4000L的存储系统时,曙光推荐了DS-3160/FS磁盘阵列,内部硬盘为Ultra 160接口,主机端口为2Gb FC或Ultra 160 SCSI接口标准的磁盘阵列系统,通过灵活的可配置性,提供一种强有力的,高性价比的RAID解决方案,从而更好的控制整体成本。 
  


三、 用户评价:从性能到细节均,美妙贯穿始终 
  
    甘肃计算中心主任胡铁钧表示:“曙光4000是一款既能进行高性能计算,又能满足信息服务需要的高性能集群系统,在生物、气象、流体力学等方面均有非常出色的表现。”面对于用户的良好评价,曙光的技术人员介绍到:“该系统完成后的系统可以完成每秒4000亿次的高能运算,相当于一秒钟内全国每个人运算300多次,然后把所有人的运算结果加到一起。以个人电脑来打比方,一台目前最好的普通电脑运算300天才能完成的任务,用这种大型计算机一天就可以完成。以旧的运算设备来做对比,以往用一个月才能处理完的核物理试验数据,现在2、3个小时就可以处理完成。” 
  
    与此同时,曙光的技术人员在谈及整个项目的规划时介绍到:“在建设网格方面,除省计算中心外,还将兰州大学拥有每秒运算2000亿次能力,兰州交通大学拥有每秒1000亿次能力,西地所拥有每秒4000亿次能力建成一个开放可共享的高端计算环境,为政府各机构、企事业、大中专院校、科研单位提供超级计算能力、海量信息处理、超大型数据库管理、尖端技术科研开发的服务,正式运行后,这个网格可以达到每秒钟运算2万亿次的能力”。 
  
    另外,曙光4000L系统充分考虑了国内用户的本地化要求,管理软件界面是中文界面,同时也支持英文界面,可以在程序内直接进行切换,无需重新启动。这项功能是曙光机群管理系统的亮点之一,中文化的界面具有亲切的人机接口,充分满足了中国用户的使用习惯,对此用惯了繁琐英文界面的用户在操作的时候显得很满意。