刀片与双核:实现节约型HPC的现实途径

    国家在十一五期间提出了建设节约型社会的发展方针,随着高性能计算在国内的日益普及,高性能计算机(HPC)的节能和节约空间和其他一些在国外已经备受关注的问题目前在国内也逐渐受到了用户的广泛关注。
  
    一些HPC的用户特别是超大规模和大规模HPC的用户已经把能耗(每瓦特计算性能 Flops/W)和占地面积(每平方米计算性能Flops/m2)作为HPC的重要指标在产品选择过程中予以和峰值、效率等传统评价指标一样的关注。这也使得HPC厂家把减少能耗和占地面积的节约型HPC作为产品的重要发展方向来研究。
  
    解决HPC能耗问题的方法
  
    理论上来说,HPC体系结构的创新才是真正解决HPC能耗的根本方法和途径。IBM公司推出的蓝色基因通过体系结构的创新把每瓦特计算性能、每平方米计算性能提升到了一个新的高度,大大超越了其他体系结构的HPC。
  
    但同时也要看到,HPC体系结构的创新是一个长期的过程,新的体系结构的计算机从推出到推广到成熟也是一个长期的过程。以蓝色基因为例子,其从研发到产品形成花去了IBM公司近10年的时间,目前因为其对操作系统和应用软件的有限支持,离大规模普及仍然有一段不小距离,甚至能否大规模普及还是一个问题。所以我们更多的应该立足于现实来谈论目前占HPC主流的机群,这更符合目前广大用户的需求。因为这些用户在相当长一段时间内会继续选择机群产品和对现有设备进行改造已达到节约型高性能计算的要求,而且这个要求十分的迫切。
  
    曙光高性能计算机用户最大的目前达到了10000个节点,能耗3000kw,占地面积也十分惊人。以另外一个用户中石油BGP为例子,目前其共拥有曙光机群近2000节点,净能耗600kw,净占地面积接近300平方米,加上存储、交换设备和空调等其他配套设施,每年电费近1000万元。这个电费对一个企业来说是一笔不小的费用,但对这个有10000颗处理器计划的用户来说,最致命的是要为未来两年的3000个节点加盖高规格HPC机房,这是难以承受的费用。目前解决这个问题的两个途径是刀片(Blade)与双(多)核处理器(Multi-core Processor)。
  
    如何正确看待刀片、双核与机群之间的关系
  
    不过,值得一提的是,由于目前刀片、双核和机群对很多用户来说都是最新的产品和技术,之间又存在各种关联关系,加上各个HPC厂家的片面宣传某些产品特性,有些用户把这些技术对立起来看待,这是一个误区。很多用户存在一些疑问:买机群还是买刀片?买刀片还是买双核?这些看起来不应该有关系的问题在目前看起来都是合理的一样。而这并不利于刀片和双核在节约型HPC中的普及应用。
  
    其实,机群是一个高性能计算机的体系结构,由众多的节点机通过网络连接构成,刀片是机群(一组)节点机的一种表现形式。由于很多小型HPC用户理解中的机群长期是由机架式服务器构成,而刀片系统(Blade System)又可以包含多个刀片,所以造成了这种产品对立,事实上对于大规模HPC用户来说,由于单独的刀片系统不能满足其要求,刀片和机群两者得到了统一,其购买的是由刀片节点机构成的机群系统,所有的机群系统软件都适用于这个系统。片面强调刀片与机群对立的厂家大部分都是因为其没有完善的机群系统软件而回避刀片机群这种提法从而回避对这种多个刀片系统构成的机群的管理、监控、调度等众多单一系统映像(Single System Image)的要求,实际损害了用户的利益,也是造成国内许多大规模刀片机群系统难以使用的首要原因。
  
    可见,尽管我们认识到刀片和双核是解决HPC能耗问题的现实可行办法。但由于人们混淆了刀片、双核与机群之间的关系,使得用户在通过刀片和多核技术来降低HPC能耗这一问题上,面临了一些认知上的障碍。相信一旦市场理清了这些其实并不复杂的关系,双核与刀片在HPC领域会有更大的作为。