如何用IBM的服务器做集群系统

    科学计算领域,服务器集群这种计算工具有相当重要的作用,通常一个集群可以有几十、几百颗处理器通过高速网络连接组合在一起,形成巨大的计算资源为特定的应用服务。 
  
    我们首先来介绍一下集群,Cluster集群技术可如下定义:一组相互独立的服务器在网络中表现为单一的系统,并以单一系统的模式加以管理。此单一系统为客户工作站提供高可靠性的服务。 
  
    大多数模式下,集群中所有的计算机拥有一个共同的名称,集群内任一系统上运行的服务可被所有的网络客户所使用。Cluster必须可以协调管理各分离的组件的错误和失败,并可透明地向Cluster中加入组件。 
  
    一个Cluster包含多台(至少二台)拥有共享数据存储空间的服务器。任何一台服务器运行一个应用时,应用数据被存储在共享的数据空间内。每台服务器的操作系统和应用程序文件存储在其各自的本地储存空间上。 
  
    Cluster内各节点服务器通过一内部局域网相互通讯。当一台节点服务器发生故障时,这台服务器上所运行的应用程序将在另一节点服务器上被自动接管。当一个应用服务发生故障时,应用服务将被重新启动或被另一台服务器接管。当以上任一故障发生时,客户将能很快连接到新的应用服务上。
  
    由于组成集群的机器不尽相同,所以我们通常可以把集群分成两种:工作站集群和胖节点集群。
  
    工作站集群(COW)
  
    工作站集群的节点机规模一般都比较小,常常配备的示2-4颗处理器的服务器,采用通常的以太网或者InfiniBand来连接,一般采用Linux集群操作系统来对集群进行管理。
  
    这种集群最常见的是PC服务器厂商的PC-Cluster集群或者刀片服务器集群,他的优点主要是价格便宜和容易部署,所以很多小的服务器厂商也可以做这种集群。在国外,很多大学生通过一个公用的高速专用网络,将数十台的PC联在一起,用Linux集群操作系统来管理,就构成了这种集群。
  
    这种集群的缺点是不太稳定,不能运行大规模的商业应用软件。而且由于这种松散连接,使得占用的空间可能比较大,散热也成问题。
  
    胖节点集群
  
    胖节点集群的服务器节点多是8-16颗CPU的SMP服务器,其稳定性大大提高,通过专有技术用以太网或者InfiniBand连接,系统采用UNIX操作系统,应用经过优化的专用集群管理软件。常见的机器有IBM的 Cluster1600和HPQ AlphaServer SC,他的好处是节点机的性能比较稳定,系统节点不太容易出问题,这样就可以运行大型的应用程序,应用到商业或者科学计算中。它的扩展性也比较好,支持所有并行方式,但是相比于前一种,价格也要贵很多。国外和国内都有这种应用案例,当然这种价格也不是一般企业和机构可以采用的,多数是原来做商业计算或者科研。
  
    IBM做集群的服务器
  
    由于IBM System P系列的产品属于小型机范畴,所以拿它来做集群的自然不在少数。IBM除了上面说的IBM Cluster1600可以做集群以外,IBM System p5 505 服务器和IBM System p5 575都是比较适合做集群的。当然,也有人用IBM System p5 520或者IBM System p5 550来做集群,这主要是根据你自己的实际需求。我们在这里简单介绍一下IBM System p5 505 服务器和IBM System p5 575。
  
    IBM System p5 505 服务器
  
    IBM System p5 505 服务器可用于19 英寸1U 机架型扩展抽屉中。它是一个1 路或2 路具有1.5 GHz 或1.65GHz POWER5 处理器的对称多处理(SMP)系统,它具备为提升系统使用率和改善性能而设计的并发多线程功能1。最多可将40 个2 路服务器安装在一个42U 19 英寸机架上。内存可以从1GB 扩展到32GB。它还提供两个PCI-X 2.0 插槽、两个千兆位以太网I/O 端口、一个光盘驱动器媒质支架和多达600GB的磁盘存储器。为了将服务器的可用性发挥到极致,可以使用能够提供几乎不间断可用性的IBM 高可用性集群软件(HACMP)将p5-505 服务器集群化。p5-505同时支持用于提供集群工作负载和应用程序的4x InfiniBand 连接。



  p5 505服务器外观
  



  
    因为他采用的是机架式安装,所以节省了很多空间,而且都放在规矩的机架中,连接调试也比较方便,包括连接存储系统。
  
    IBM System p5 575服务器
  
    IBM System p5 575集群节点专门为那些进行极高负荷计算的应用程序而设计,它们往往需要很高的计算性能和内存带宽。通过IBM System p5 575,能够实现从16到2000个CPU的不同规模计算集群。
  
    p5-575 节点提供两种不同的配置选择。8路节点包含 8 颗 1.9 GHz 的 IBM POWER5 微处理器,每个处理器具有独享的 1.9MB 的二级和 36MB 的三级高速缓存,以充分发挥高带宽计算的能力。16路节点包含16颗1.5GHz的IBM POWER5微处理器,以提供极高的CPU密度,在此配置下,二级和三级高速缓存被该芯片上的两颗处理器所共享。16路节点的每处理器带宽比8路节点要小,但通过增加处理器数量,能够为HPC应用提供更高的浮点运算能力。
  
    IBM System p5 575集群节点提供了不可思议的计算密度,它能够实现在单一系统机架中由近200颗处理器(12 个16路p5-575 集群节点)所获得的非同一般的密度。与前代产品 IBM System p5 655 相比,p5-575 提供更高计算密度和持续的高性能。
  
    8路节点p5-575设计旨在满足大量不但需要快速处理,而且需要快速且持续地访问大量数据的组织的需求。 在8路节点中每处理器有着超过12GBps的峰值内存带宽,非常适用于HPC 应用,如计算机辅助工程(CAE)、海洋科学研究、气象学、流体力学计算、能源研究、数据挖掘和其他传输、访问和快速分析大量数据的带宽密集型工作。
  
    由于采用简洁的2U机柜,模块化的p5-575允许用户在一个42U 的系统机架中安装12 个节点。8 路和16 路的p5-575 节点可以在相同的机架中混合。这种独特的封装有4 个组成模块;I/O 子系统、DC 电源变流器/盒、处理器和内存以及冷却系统。每个组件都可以定制,以满足高性能、高密度的计算的苛刻要求。可以在机柜内增减p5-575集群节点,或在集群内进行复制,以满足不断增长的工作负载需求。每个p5-575集群节点的最低配置为1GB内存,可扩展到256 GB。2个热交换的磁盘驱动器允许将磁盘存储容量从73.4GB 扩展到600GB。如果要求更大的磁盘容量,“I/O”节点选项通过机柜后面的RIO-2集线器端口仍能支持4U 的I/O 扩展抽屉。I/O 扩展抽屉最多可容纳16 个附加的磁盘支架,从而可提供2.3TB 的15K rpm磁盘存储量。两个集群节点可以共享一个I/O 扩展抽屉,每个系统机架包含5 个I/O 扩展抽屉。




  
    p5-575节点在一个集群内如何联接取决于使用的集群管理软件。4 Linux环境下的集群系统管理(CSM)支持以太网(10/100/1000 Mbps)或4x InfiniBand和AIX 5L 环境下的CSM,可使用以太网4x InfiniBand 或IBM System pSeries High Performance Switch(HPS)相互连接来支持HPC工作负载。
  
    IBM System p5 575 集群节点旨在成为一种用于超级计算机的模块。每个节点都有可能成为针对特定需求的最佳节点:具有高内存带宽的8路节点对于快速处理大量数据十分重要,而具有极高性价比的16 路节点可在紧凑空间中提供计算能力,这对于客户满意度至关重要。p5-575 集群节点创新、紧凑的结构,可选的虚拟化引擎(具有微分区功能)以及同时运行AIX 5L 和Linux 操作系统的能力,使其能用更少的物理空间完成更多的工作。各种为AIX 5L 和Linux 操作系统设计的管理工具提供了安装和有效管理大型集群的方法。p5-575集群能够很方便地进行伸缩,所以它可以根据组织的高性能需求进行扩展。
  
    IBM服务器搭建集群系统
  
    整个集群系统主要由高性能计算机系统和存储子系统组成,如图所示,高性能计算机系统中的计算集群服务器由IBM p5-575来担当,它们之间通过HPS来连接。而集群管理服务器由IBM P5 520服务器来承担,它通过一个网络交换机来对计算集群进行管理。计算集群又采用光纤存储来连接系统的存储设备,保证系统的高速运行。




  
    整个系统的网络构建示意图就是这样,当然,要想让系统正常高速的运行还要在什么安装好的管理软件。具体的软件在IBM p5-575的产品中都有,可以请有经验的系统工程师来安装和调试。这里也就不再系统展开讲了。