工业光魔公司(缩写为ILM,《星球大战》、《变形金刚2》等大片的三维动画制作公司)正在用IBM最热门的新款BladeCenters刀片来更换其就有的服务器刀片。而ILM每替换一个装满了新刀片的新机柜,就能将数据中心的整体用电量砍去140千瓦时(kW),全部替换完毕后,可以让整体用电量下降84%,这一结果非常令人惊讶。
然而新机柜的功率密度却要比先前高出不少:每个机柜耗电28kW,而前一代机柜的功率密度则为24kW。而且每耗一瓦电就会产生相应的热量,还必须再想办法将这些热量从每个机柜–也就是从数据中心排走。
新机柜装有84块服务器刀片,每块刀片有2个双核处理器和32GB的RAM。新机柜的功能十分强大,足以替换掉7个装有前一代BladeCenter刀片服务器的旧机柜,也为ILM节省下了大量图像处理数据中心内的空间。
为了给每个新的42U机柜提供冷气,空调系统就必须能够排出更多的热量,每个机柜所产生的热量比9户人家冬天将壁炉烧到最暖和时的热量还要多。
这段时期以来,不少新设计的数据中心都可支持每平方英尺100到200瓦的平均功率密度,而典型机柜的功率密度约为4kW,惠普公司副总裁兼关键设施服务 (Critical Facilities Services)部总经理Peter Gross说,如果数据中心设计成每平方英尺200瓦的功率密度,则每平方英尺可以支持的平均机柜密度约为5kW。如果对空气流动再进行细致的设计优化,那么一套室内空调系统便可支持功率密度最多为25kW的机柜。
ILM每个机柜28kW的功率密度已经到了今天计算机室内空调系统冷却能力的上限,IBM负责数据中心效率的首席工程师Roger Schmidt说。"你们正在接近30kW的极限密度。如果要想再进一步扩容的话,就得另想办法了。"
扩容可持续吗?
这个问题实际上是再问,下一步会发生什么?"未来,当瓦数增加到如此之高,数据中心的机柜里再也容纳不下新的服务器时,电力供应和冷却系统该如何应对呢?我们正在全力解决这一问题,"Schmidt说。超过30kW的高密度计算就只能依靠水冷系统了。但是也有专家认为,对于很多组织来说,数据中心经济学指出,将服务器分散出去而不是集中在密度更高的机柜里,或许才是更经济合理的。
ILM的信息技术总监Kevin Clark很喜欢新的IBM BladeCenter所带来的处理能力和能源效率,这也符合业界趋势–以更低的价位获得更多的功能。根据IDC的统计,服务器的平均价格从2004年以来已下降了18%,每核的成本已下降了70%,为715美元。
不过Clark也不清楚,是否有可能将计算密度再翻一倍。"如果按照我们现在的基础架构再增加一倍的计算密度,那么从冷却系统的角度看,要管理这样的密度就会非常困难,"他说。
而他并非唯一一位对此表示担忧的人。40多年来,计算机行业的商业模式都是建立在摩尔定律之上的,即认为每隔两年计算密度就会翻番。而如今,已经有不少的工程师和数据中心设计师们开始对这一定律的可行性提出质疑了–他们认为摩尔定律已经到了一个极限阀值。
这个阀值不仅是指芯片厂商能否克服在更小的体积内容纳更多晶体管所带来的技术上的挑战,而且是指在现代的数据中心内运维大量极限高密度的服务器机柜是否经济的问题。
最新的一些设备把更多的计算能力和功率塞进了更小的空间内,但是能够支持每平方英尺更高密度计算空间的基础设施架构–包括冷却系统、配电系统、UPS和发电机–也会成比例地增加。
数据中心经理们对这一问题的关注度正在增加。IDC在2009年对1000家数据中心进行了调查,有21%的数据中心将电力和冷却列为数据中心的头号挑战。近一半(43%)的数据中心报告说运营成本增加了,有1/3的数据中心称,他们曾经有过因电力和冷却系统出了问题而直接导致服务器宕机的情况。
Christian Belady是微软全球基础服务集团的首席基础架构师,他负责设计和运营微软最近在华盛顿州昆西市建设的数据中心。他指出,每平方英尺的成本太高。在昆西数据中心,基础架构的成本占到了项目总成本的82%。
"我们已经越过了密度越高越好这样一个极限点,"Belady说。"当你将计算密度提高一倍时,你也必须把室内的空间扩大一倍。"
当每平方英尺的计算密度增加时,总体电力成本一般不会出现太大变化,Gross说。但是由于功率密度也在增加,所以支持每平方英尺高密度计算所需的机电设备空间也会出现增长。
IBM的Schmidt说,每瓦成本,而不是每个平方英尺的成本,才是新的数据中心最主要的建设开支。
"用不了多久,你就会撞上这面功率墙,到时候你根本无法在这面陡峭的斜坡上再向上攀升(扩容)了。这里就是TCO的底线,"他说。正是功率成本首次让大型数据中心的建设项目支出突破了10亿美元大关。"公司的C层领导一听到这样的费用数字肯定会吓得要死,因为成本太高了,"Schmidt说。
Gartner分析师Rakesh Kumar认为,无论从能源使用还是成本角度看,不断上涨的功率密度都是不可持续的。不过幸运的是,大多数企业在看到每机柜的平均功率负载达到ILM这样的水平之前,还有相当长的一段路可以走。例如在Gartner的企业客户中,约有40%的客户刚刚超出每机柜8到10kW的水平,还有一些客户已经到了每机柜12到15kW的水平。不过这些数字还在不断增长中。
有些企业的数据中心,还有像Terremark公司这样的管理服务提供商,正在测算电力的使用情况,可以计算出多少电力可以给多大的数据中心空间提供能源。"我们正在为大型企业客户提供一种电力使用模式,"Terremark的高级工程设计副总裁Ben Stewart说。"你只要告诉我们你有多少电力,我们就会告诉你,能为你扩充多大的空间。"
购买千瓦时
然而,指望客户们不仅知道他们需要托管多少设备,而且知道每个设备机柜需要多少功率,这可行吗?
"对于某些客户来说,这是很可行的,"Stewart说。事实上,Terremark就正在朝着响应客户需求的这个方向发展。"有很多客户到我们这儿来,都是带着最大千瓦时订单来的,然后让我们为他们提供最大的扩容空间,"他说。假如客户不知道每个机柜所需的功率是多少,那么Terremark 就会按照给每个机柜供电的电力线条数向其销售电力。
IBM的Schmidt认为,功率密度的不断增长是可能的,不过数据中心冷却这些机柜的方法也需要加以改变。
以ILM在2005年完成的数据中心为例,当时的设计可支持每平方英尺200瓦的平均功率负载。这样的设计从总体来看,无论供电能力和冷却能力都是很充足的,但它却并不是冷却高密度机柜的有效方法。
ILM采用了一种热通道/冷通道设计,工程人员成功地调整了冷通道中带孔散热瓦的数量和摆放位置,优化了BladeCenter刀片密封机柜周围的气流。但是为了避免出现热点,室内空调系统就要把13500平方英尺的空间降温到奇冷的65华氏度(约18摄氏度)。
Clark知道这样的做法效率不高,因为今天的IT设备都是设计成可在81华氏度(约27摄氏度)下运转的,所以他得采用一种叫做冷通道控制的技术。
其他数据中心也在经历着这样的控制–地板上的高密度机柜的柜门会从前后两端封堵住冷热通道。热通道的围栏也可以沿着每行机柜的顶部安放,以防止冷热空气在天花板附近混合。在其他情形下,冷空气可以直接从机柜下部导入,向上推送到顶部,然后进入天花板上面的回气空间,形成一个封闭的环路系统,不与室内的空气相混合。
"热/冷通道的方法是传统方法,但却并不是最佳方法,"埃森哲数据中心技术与运营经理Rocky Bonecutter说。"现在的趋势就是采用冷通道控制技术。"
惠普的Gross 估计,采用了此种技术的数据中心便可在装有空调系统的房间内支持每机柜约25kW的功率密度。"这需要仔细地隔离冷热空气,消除两种空气的混合现象,优化空气流动。这些技术正在成为常规的工程设计实践,"他说。
虽说按照现代化的标准重新设计数据中心有助于减少供电和冷却问题,但是最新的刀片服务器已经超出了每机柜25kW的上限。IT业花了5年时间不断地增加机柜密度、清出地板空间、优化空气流动。如今,这些技术已经成熟,可以获取能源效率的累累果实了。但是如果密度仍继续增加的话,那么冷通道控制就将是气冷系统的最后一根救命稻草了。