数据中心对刀片服务器应用的爱与恨

刀片服务器具备多种优势,被石化行业所青睐,但是在使用过程中,也遇到了诸多问题。爱恨交错间,石化行业应用刀片已经逐渐成熟。刀片服务器具备高可管理性和资源配置的灵活性,并且在大规模部署的情况下,能够节省大量的线缆。由于刀片采用了特殊的设计,能够有效地降低能耗,符合当前绿色数据中心构建的需求,因此也代表了未来数据中心中服务器形态的发展状况,成为业界的热点话题。

许多国际大厂都在刀片服务器领域投入了巨大的精力,在不断推出新的刀片产品的同时,也在不遗余力地宣传着刀片服务器的优势。国产服务器厂商曙光公司也推出了自主设计的刀片服务器系统,并且通过国家高性能计算标准委员会推出了国产刀片服务器标准。Intel也联合包括宝德、联想在内的多家厂商推出了一款刀片服务器标准,意在竞争激烈的刀片服务器市场中分得一杯羹。

尽管有关刀片的话题无数,但是刀片服务器的市场终究还是刚刚起步,刀片服务器的出货量在整个服务器产品中的份额还算是比较小,以致于有传闻说,随便一个大客户采购订单的变化,都可能导致IBM和HP这两大刀片服务器厂商市场份额的剧烈变化。

不过,由于刀片的高计算密度、灵活管理等特性,使得刀片服务器尤其适用于计算密集型的企业应用,比如说适合以集群方式部署成HPC应用,在这一点上,刀片服务器有着机架式不可比拟的优势。

现在的问题是,在应用中,CIO们对刀片服务器的感觉和体验到底是什么?他们在应用刀片服务器的过程中体验如何?对于未来服务器的部署,他们的计划如何?对于刀片服务器,他们还有着怎样的期望值?

曙光公司的首席技术工程师袁伟表示,对于高性能计算集群来说,节点数目不能无限扩张。比如说上海超算中心的系统为每秒十万亿次,但是如果要提升到每秒百万亿次的系统,就不能简单地将原有的系统规模扩充十倍,因为这将非常困难,会遇到各种各样的限制。"要做更大的系统,无论是百万亿次还是规划中的千万亿次,都必须进行体系结构的创新,刀片将是一个非常理想的选择。"袁伟强调说。

之所以这样说,是因为目前的高性能计算机大多采用集群方式,利用多个计算节点连接在一起进行并行运算,从而达到高性能计算的目标。如果采用传统的机架式服务器或者塔式服务器,那么数百个或者上千个节点之间的线缆连接、通信效率等就会造成很大的麻烦。

但是如果采用刀片服务器的方式,每个机箱里面能够容纳十片或者更多的刀片,内部已经有了很好的互联,其通信效率将会很高。同时,由于刀片服务器的计算密度极高,因此,可以在构筑集群时大幅度节省空间。另外,由于刀片更为节能,以刀片服务器的方式来实现高性能计算,其单位性能能耗就会降低。

"还有散热方面的考虑,管理方面的灵活性等,这些都使得刀片服务器成为构筑现代高性能计算集群的首选。"袁伟说。

在近期石油石化行业部署的HPC应用中,大都采用了刀片服务器的方案。包括大庆石油管理局物探研究所、胜利油田物探研究院、中石化江苏油田分公司物探技术研究院等都采用了较大规模的刀片服务器集群,进行相关的地震资料研究。他们大多从2004年开始使用刀片服务器,并且在最近的几年持续引入刀片服务器,也大多表示在将来要继续使用刀片服务器,增加计算能力。

比如,已经采购了646台刀片服务器的大庆石油管理局物探研究所计算机室主任付喜春表示,刀片服务器代表着未来的趋势,将来肯定还会继续采用刀片服务器。

江苏油田分公司物探技术研究院计算机部主任韩国培说,明年将继续引入刀片服务器。根据他们前一段时间所作的"十一五"规划,到2010年,至少要布置到1024个节点。

付喜春表示,他们都是将刀片用在了石油地震资料处理领域,包括常规三维地震资料处理,叠前时间偏移,叠前深度偏移地震资料处理。

韩国培介绍说,在石油勘探行业需要大量的计算能力,尤其是地震资料处理中的叠前深度偏移和叠前时间偏移,如果计算能力不足,根本无法完成。韩国培说,叠前时间偏移和叠前深度偏移是地震资料处理技术方面的专业术语,在满足一定的速度、信噪比等参数的条件下,运用叠前时间偏移和叠前深度偏移技术与叠后偏移等成像技术相比,可以大幅度提高成像的精度。这就好比医学上的CT和B超。成像效果好,就可以更加清楚地了解地下的地质构造形态。

韩国培表示,在应用刀片服务器集群之前,由于计算能力不足,根本无法完成类似的计算。在1996年的时候,江苏油田分公司物探技术研究院曾经引进过SGI的并行机,当时只有195MHz的主频,CPU数目也不多,运算能力受到限制,无法完成叠前时间偏移的计算。

"由于叠前时间偏移和叠前深度偏移运算量大,都需要采用并行方式来完成,那么,由多台服务器构成的Beowulf集群正好能够满足我们的需要。"韩国培说。

付喜春表示,独特的硬件结构、高速的运算性能、并行化的集群管理功能,是吸引他们采用刀片服务器系统的重要原因。他认为,刀片服务器系统管理起来方便,占用空间也小。相对于机架式服务器而言,多台刀片能够共享一个机箱,计算密度更大。因此,只需要比机架式服务器更少的空间就可以部署完成,并且使用的线缆要比机架式服务器少很多,也节约了部分成本。

韩国培则表示,由于建设成本的原因,早期建设的机房一般都不会很大,因此在有限的空间内安置尽可能多的计算能力,就是他们追求的目标。如果为了部署1024个节点的1U机架式服务器PC集群,动用到三四十个机柜,就需要很大的场地空间。"这么多机柜,实在是一种沉重的负担。"韩国培说。

对于石化行业来说,采用刀片服务器的另外一个原因就是刀片服务器集群的性价比很高,部署高性能的大规模的集群,其成本要远低于大型主机。

在大庆油田物探研究所,最早使用的是昂贵的Unix主机。在2000年的时候,引入了72颗CPU的两套Unix架构大型计算机系统,花费了将近7000万元人民币。而在2004年购买的256颗CPU的 IBMHS20刀片服务器构成的PC集群计算机系统,仅花费了1000多万元人民币;在2006年年底引进的1084颗CPU的HPBL20P刀片服务器组建成的高性能计算集群计算机系统,仅花费了4000多万元人民币。并且整个计算中心的运算能力已经由2000年的双精度浮点运算速度550亿次/秒增加到了现在的9万亿次/秒。

"两套PC机群计算机系统所花费的资金总和,要比2000年购买的两套主机少1200多万元,而运算性能要比原来的主机提高160多倍。"付喜春表示,"刀片服务器集群的确有着很高的性价比,这是吸引我们的一个重要方面。"

尽管刀片服务器有着多种优势,但在石化行业的实际应用中,还是存在诸多问题。付喜春表示,刀片服务器的功耗大、发热量大,这已经成为了整个石油行业高性能运算应用上比较头疼的问题。

由于刀片服务器具有非常高的计算密度,这使得在应用刀片服务器的时候,必须对现有的机房进行改造,增加相关的配电设备和散热设备,增加一些UPS、机房专用空调、配电柜和变压器的投资,并且后续的耗电成本也比较高。

此外,由于石油行业数据处理的计算量大、数据量大,因此,对I/O提出了极高的要求。而由刀片服务器构成的Beowulf集群先天不足之处就在于I/O能力的不足,它比原有的Sun或者SGI、IBM等公司的大型机要差很多。正如东方地球物理公司研究院的赖能和所说:"尽管PC集群在科学运算速度、并行处理、性能价格比等方面具有明显的优势,完全能够为常规处理和叠前偏移处理提供有效的计算环境,但每个节点的I/O能力远不如RISC结构的并行机。"

应对的解决方案就是采用专门的I/O节点。韩国培表示,他们就购买了一些专用的I/O节点来应对I/O问题,并且通过引入并行存储的方式改善存储所带来的数据传输瓶颈。"我们刚刚引入了Panasas并行存储系统,它采用面向对象的存储方式,但是由于我们刚刚开始部署,具体效果还没有测试,但据其他兄弟单位介绍,效果不错。"韩国培介绍说,"(数据传输的)速度的提高完全可以达到翻倍的效果。" 韩国培还认为,随着将Infiniband等技术引入集群系统,网络和数据传输的速度将会更快。

此外,付喜春认为,刀片服务器系统的稳定性还不如Unix主机。他说:"单个刀片的稳定性方面会出问题,这种问题出现的概率跟机架服务器差不多,比Unix服务器的故障率要高一些。"

不过,好在进行地震资料处理分析时不需要类似于金融领域的稳定性,而是要求计算性能。刀片服务器集群系统的这一不太稳定的弱点,在石油行业还没有构成太大的影响。

现有的刀片服务器缺乏标准的问题,在石化行业并没有引起太多的困扰和关注。付喜春认为,由于大庆石油管理局物探研究所每次购买刀片服务器系统,都是购买一家的产品来组建一套完整的系统,比如在2004年购买了128台的IBMHS20,在2006年购买了518 台的HPBL20P分别组建了两套系统,尽管这两家产品在硬件上不兼容,但是并不影响这两套系统的使用。"何况这两套系统可以通过网络进行互联和进行数据传输。"付喜春表示。

韩国培也认为,目前刀片服务器标准的缺失还没有构成很大的问题。毕竟,现在还没有所谓"混插"等需求。"就好像手机的充电器标准一样,要到成为技术发展上障碍或有众多的需求时,才会真正成为问题。"韩国培认为。

何况,从他们应用的角度来看,无论是IBM还是HP等厂家的刀片服务器系统并没有太大的差别。韩国培说,除了在做工方面的细微差别之外,同样体系结构的节点在性能上大同小异,功能相同。