技术演讲:构建新一代绿色数据中心 HP 彭玉龙
大家好,接下来的时间我给大家介绍一下我们在绿色数据中心HP的一些想法和具体的实践。
我们主要看一看现在数据中心面临节能减排方面的挑战以及我们大体上的思路。从能耗方面来说现在全世界都在强调节能,因为石油资源越来越少,另外我们在最近看到价格也越来越高,并且有预测明年要上升到250美元/桶,所以油价的高涨与其他替代能源还没有完全被开发利用的情况下,节能减排变得非常重要。
有一些数据表明现在服务器冷却的费用已经超过了供电,而且冷却的费用在3年时间的周期以美国电费以及用户具体的使用情况来看的话已经超出了服务器本身的采购费用。这样来说能耗方面无论是费用以及实际上能源的供给方面来说,都是产生了很大的问题。
在数据中心里面尽管服务器厂商不断的提出比较节能的服务器,但是实际上密度在不断的提高,而且应用的面也在不断上升。因此,服务器整个功耗的上升是一个不可避免的事情。
有预测全世界因为这样的原因造成超过半数以上的数据中心很快就必须把很多设备外移才可以维持下去。
我们刚才已经谈到了能源的价格,能源的费用已经超过整个服务器支付的费用。HP在这一方面也长期做了一些研究,特别是近几年做了很大的投入做研究。在1996年HP开始采用动态的空气动力学–流体动力学研究我们数据中心如何绿色,怎么样把风的流动处在最佳的位置。
2000年开始越来越关注服务器数据中心里面的利用率以及有效的管理,我们今天大部分的用户它的数据中心利用率大概就是在20%左右。实际上是非常大的浪费。尽管今天的服务器已经有了一定的动态功耗调节功能,也就是说当你你的负载不是很大的时候,它可以略微节省一点这样的功耗,但整个产业在这一方面的发展还不是特别成熟,它的功耗调节范围还比较有限,10%、20%,当然今后在这一方面的研发会不断的加大投入。
我们在2001年到2004年开始就做的更加深入的研究,做所谓的动态制冷的工作,我们在观察数据中心里面制冷的效益怎么样进行提升。同时在服务器里面进行刀片机架式的设计,在机架式设计里面会进一步的进行非常细致的研究,空气在机器里面本身的流动和最佳的路线是怎么样的,包括每一克空气我们都在仔细的衡量怎么流动是最好的。
所以我们在2007年开始以后就正式在这个市场上推动动态的智能冷却的理念和具体的实践。我们已经开始在一些数据中心里面采用这样的技术,包括最近在中央电视台北京标志性的楼里面它的数据中心就采用HP的数据中心设计理念,包括动态制冷的技术在中央电视台得到应用。
HP和其他同行一直推动这方面的发展,包含我们引进两种效率指标,一种现在的服务器性能是越来越高,但是很多越来越高的性能是加大它的功能来获得的。我们知道如果随便拿一台普通的PC把液氮冷却现在就可以把2G、3G主屏立马提高到4G、8G,但这是用功耗提升的,是以一次方比例上升,这并不是我们期待的方向。
我们行业一直在研究怎么为行业和社会做贡献,现在更多评价你生产出来的服务器平均每瓦的性能,你消耗这么多的功率产生了多少性能,而不是说我现在服务器能够达到多少多少的性能。在综合评价下希望马而跑得快又不希望它吃草,这个难度非常大,需要不同的研究,从部件到数据中心,每个地方都要使劲的搅,每一滴水都要搅出来。这是从微观来看的。
从宏观来看就是所谓的PUE,这个PUE的指标代表了你消耗多少的功率才能支撑到你所用的IT的设备,这个比例关系是多少。今天非常多的数据中心里面基本上都是2.5以上甚至接近3。
也就是说,你要支撑1000瓦计算机设备你可能需要2.5千瓦的功耗才可以,剩下的1.5千瓦用到哪里去呢?就用到功率的转换以及空调、灯光等其他各方面。所以我们期望整个数据中心的运作管理必须是熄灯的,当然事实上不完全熄灯稍微有一点光,因为还需要去探头看一下。
HP的解决方案是各个层次都在进行统一的,包括高效的部件和系统,这个部件和系统就牵涉到很多方面包括电源、转换系统呀,包括刀片本身内部的设计,包括气流的管理等等。
那么这些高效的备件还不够,因为非常高效的部件承载一大堆垃圾的应用在上面也是没有任何意义的,实际上能够更大程度上不是把制冷调节到最优或者部件调节到最优,最重要就是IT以什么样的方式运营和管理。
我们现在用高效的空调制冷效率非常好,完了你看到很多老太太家里的破衣烂衫都舍不得丢,大柜子小柜子放,堆到空调前面,可能里面有很多的衣服甚至还有结婚的婚纱,如果把这些垃圾放到数据中心制冷,用再多的功耗也没有用。
所以怎么样把数据中心的利用率达到更高效整合平台,这可能是最需要关注的,这是在源头就把可恶的热量扼杀在摇篮里面,这是我们最重要希望关注的地方。而事实上当我们所有人谈论绿色数据中心的时候,有谁关注这方面的工作吗?
没有人,都是关注在皮毛的地方,其实这很关键,怎么样把没有用利用赶出去,把我们服务器的利用率从十几、二十几提高到五六十,甚至有的人利用率只有20%,我们希望控制在50%、60%的程度才是比较合适的。假定从20%提升到50%、60%就是把一大半的热量赶走了。
节能的组件在很多具体的方面,我们现在节能芯片上的功耗是自然而然的,也不是英特尔或者MB做的低功耗的芯片,这是摩尔定律自然而然在12到18个月内单位面积集成度会加大到一倍以上,从而单位功耗的芯片能力就会提升。
所以在这些方面我们就会有这样的自然而然的好处,但是英特尔和所有CPU的制造商,他们都在做一件对将来越来越有意义的事情,就是他已经看到你们都不会去做数据的整合,一大堆垃圾还继续运行怎么办呢?
我知道你利用率肯定很差,我就在这边想一想办法,当你利用率很差的时候能不能把功耗降的很低。这件事是正在革命、正在进行之中,有很多将来的芯片在功耗管理方面会获得越来越大的能力,这方面的能力表现在你当有很大负载的时候功耗会提升出来。
当你没有负载的时候功耗就降低了,这跟传统的数据中心本身空调的设计思想是完全不一样的,以前都问你搬进几台服务器,10台,每台服务器功耗是多少?加减乘除一算,然后买一个相应的空调。下一次再问你多少服务器,10台?多少功耗?不知道。
这是很大的动态范围,我买多少,是不是买最大,这样就造成了更大的浪费。所以当有这样革命性的手段时,也要避免在革命口号之下从事反革命的活动,造成功耗的更大浪费。所以变成我们更需要动态的东西跟整个动态思想配合起来,你才可以实现这样非常有效的动态口号。
包括有很多器件,在中间我们看到有一个很长的风扇,原来的风扇原来都是扁扁,这就是用航空中心很多专家设计的,帮我们设计风扇怎么高效,风扇吹的量非常大而噪音非常小。这些都是用同样的功率能够吸收吹动更多的空气效率就提升了。
包括右边看到硬盘越来越用小尺寸的硬盘,这些小尺寸的硬盘机械的摩擦带来的热量损耗功率都会大大的降低。还包括左边这样一个电源线,这些电源线我们越来越多采用标准化、高效的器件来做,当然服务器会贵起来,电源同样提供这么多的直流功耗,它的供效率高成本就高,如果搞一些便宜的服务器把电源拔出来测量它的功耗,功效是比较低,本身就会产生很多热量,所以事情都是两个方面,希望大家买一些贵的服务器,代表功耗更加节省一点。
在功耗里面也利用了芯片本身带来的DBS,它的功耗会随着你负载的变动功耗会变得比较厉害一点。
我们这个服务器并没有做出什么特别的贡献,只是说加强了这方面的管理,当CPU有这种能力的时候,我们的服务器马上相应做这方面的处理,马上会告诉CPU联动起来我现在负载不多你把电压调低,调低以后整个功耗就会降得很低,当然它的输出它的实际产能也低了,这无所谓,你本来CPU只有5%,我现在把CPU的功率降低之后,CPU变成15%又有什么关系呢?这是我们在这方面做的工作。
另外还需要有高效的管理工具。原来是非常粗放的,谁管数据中心里面某一个地方,某一个区域里面温度是20度还是30度,没有关系,我们只是用人体的感觉进去兜一圈感觉比较舒服,这个数据中心就没有问题了。
那么我们怎么做到不浪费每一颗冷却的空气,天花板、地板、玻璃窗外的空气都不要冷却,数据中心里面能够达到30度、36度汗流浃背没有关系,只要服务器冷就可以了。
所以我们要使每一个关键的地方都有足够的能量在里面,我们在每一个机架正面出风口,反面出风口都要有探头,每个机架里面就有9个以上的探头,当服务器知道之后会自动控制后面每一个风扇的出口能量,来达到最佳的空气动力学的平衡,把整个出风的流向达到最佳。这些都已经在做非常精细化的调整,来关注功率的制冷。
我们以前都看这个服务器功率是红的、绿的还是黄的,我们不仅看服务器、存储量还要对服务器特别的关注,看整个机架功率怎么样,每个三箱是不是充分平衡了,不平衡我们应该做什么样的调整,这个地方如果过热之后我出风口怎么样进行动态的调节,把温度降到非常恰当的程度。
所有这一切都是在做越来越精细的调整,包括机箱的出风口包括机架的产生热量是多少,以便整体和局部进行联动的效果。
所以我们在这个地方以刀片机器为主,刀片是我们比较新的产品,自然是加上了越来越多对未来的期望和技术。那么我们所谓十个风扇每个都是用航空发动机的技术进行优化设计,同时相互之间有微妙的联动关系,保证机架里面空气的流动是符合空气动力学最优的道理。
还包括当有一个风扇是坏掉的时候,其他的风扇做什么样的调整都达到最合适的程度,包括功耗,本身还可以被控制和调节,以及当我们的电源3+3冗余,按照传统设计在满载的时候所有的电源是半载,而半载对于电源来说效率很低,电源都是八九十负载效率比较高,我们是怎么做的呢?
当不是满载或者满载的时候我们根据实际的使用量把其他多余的都关掉,只剩下两个电源工作,其他都没有工作,如果坏的话才会瞬间切换。这些都是斤斤计较省每一度电。在我们这里面从风扇到中间每一个空气的流动以及到电源功耗的平衡到监控到管理,把每一个细节都做到了最优。
最关键的还是要有充分的虚拟化,充分的虚拟化把资源的利用率加以提升,我们可以看到全世界都做的很早。现在在油价高涨的逼迫之下不得不进一步的考虑怎么样有效提高利用率,有很多的厂商都在努力,HP在windows、在PC服务器标准芯片服务方面充分做集成。
同时我们有一套管理,各自有各自的管理工具完全不相干,在这个数据中心有两个人打架也是很麻烦的。我们HP既是很大的windows提供商,又是最大的服务器产品的提供商。我们在整个管理方面一直推动一件事,不管你过去怎么样,我们今后就是要用统一的工具进行管理,无论你是windows还是什么,我们的管理界面都是一样,功能都一样,甚至以前虚拟化的时候各干各的,凡是新生事物都是一样,我们在短短时间之内把互相的对头捏在一起,统一管理起来。
同时我们还要注意到所谓的虚拟化就是把一个物理的东西变成很多虚拟的东西,服务于更多的用户、服务于更多的应用。但是如果这个虚拟化做的不好也会出事情,虚拟化一个很大的障碍,就是这个虚拟的东西会死人的。
1800多年前曹操也懂虚拟化把很多小船串在一起变成大的战船,还没有冲过去就被人一把火烧了,这就表明虚拟化的致命命门就是安全性差。很多当我服务器出现问题的时候,本来只完蛋一个应用,现在完蛋十个应用,那我怎么活呢?我们也要防止这种以革命的名义从事反革命的活动。
我们的解决方案就是说这种虚拟方案我们主张既可以虚拟也要保证安全,有没有什么办法呢?HP已经提出了硬件分配的方法,今天可能这不是我们介绍的中心,我们以后有机会可以详细介绍,怎么能够避免以革命的名义进行反革命的活动。
这个虚拟化最终的目标就是把利用率提升上去,所以我们所看到的就是你有一个平台,这个平台本身要具备有非常充分的虚拟化能力,我们这个虚拟化能力不仅仅是说像哪吒一样有三头六臂,同时干很多事情,但同时心脏被打中,所有脑袋都死掉了,我们要像孙悟空一样打掉一个没有关系。
我们还要关心怎么样有效的管理,你这个资源能不能像一个资源池一样流动,能够在需要的地方出现,而不能够像孙悟空变成一百个猴子一样失控了,很多猴子都谈恋爱,不干活也不行,所以我们需要有有效的管理。
另外我们需要有数据的评估,所谓的虚拟化就是填补的过程,有很多的工作要做,要工作分析好,需要有一些机器人帮我做,那么有没有这样现成的东西,我们HP也可以帮助大家解决这样的问题。
所以虚拟化是大家非常关心的,怎么样让他们非常动态在这里面自动执行非常高效的虚拟化,从而真实有效在不降低可靠性的基础上,不降低管理复杂性,把所有虚拟化的好处全部用上,像我们HP这样的厂商顺便帮助你的同时也赚一点钱,帮你提供服务,提供软件,你剩下的100%的钱肯定不能全部装到口袋里面,大家一起分。
这样组建的虚拟化、虚拟化的集成,最终产生的IP的公用化,我们看到的是根据它的特征把所有的数据库公用到这个服务器上面,通过这样的管理把整个IT变成一个真正的公用的状态。我们刚才提到很多嘉宾也谈这方面的内容。
最后绿色数据中心很多人都在真正关心,怎么能够把散热的技术应用到最佳的状态,我们需要在什么领域里面努力工作。HP是比较全面的看,这个芯片是跟英特尔合作研究的,从这个服务器本身里面的空气怎么流动,整个数据中心的耗电我们也非常关注,怎么能够非常有效节省数据中心。
有一些可能大家都已经非常了解的实践,包括原来我们都知道数据中心是展示公司里面最宝贵的资产的地方,所以一排一排排的非常漂亮,但效率很低的当你一排一排排的非常整齐的时候,所有热风吹出去之后都吹到人家希望获得冷风的机风口,所以这是没有效率的制冷设计,这一种基本上被淘汰了。
如果你今天还不知道,已经有一点晚了,但还来得及,赶紧回去必须是做一些调整,就是所有服务器的机器是脸对脸,屁股对屁股,冷气冷风道只有冷风被两边的服务器吸走,这样一弄马上就百分之十几功率的节省。只要有一个机柜的空隙,甚至没有把白跳槽就导致回风,这样散热的效率就会降低。
所有的这些细节改变之后就可以马上提高10%效率。包括所有线缆串进串去有没有弹性的封闭口,就是除了线进去其他都掐住了。
另外我们制冷的效率很低由于某些原因包括我们的地板都没有足够的风压,一般都是5、60公分的地板很快就不行了,当我们制冷的要求密度越来越高,今天追求都是90公分到120公分的地板,如果还有天花板上有专业的回风风道都需要有很高的空间让风走的非常顺利,不能让它像我们以前老红军一样两万五千里长城每一个都是草地每一个都是沙漠,走得累死才跑到空调里面交换能量,这不行,我们必须给他们创造良好的环境,让他们走的舒舒服服。
所以这些很细微的地方可以使得我们能够比较有效的用静态制冷的方法,一些最佳的实践就可以大大降低我们的能耗,我相信这些都是不花钱。今天如果把这几句话听进去,回去一改造就为中国、为全世界绿色地球环境做出了巨大的贡献。
当我们现在越来越多是新的设备密度很高,老的设备只是一般般,怎么样在这个过程当中对特殊的设备进行有效的操作。一个方面就是把热集中起来,局部的集中,同时一块一块要间隔,高密度、低密度,使得整个制冷设备达到有效的平衡。对于极端、个别的设备可以单机柜制冷35千瓦,这是很厉害,今天即使是刀片也是20千瓦左右,我们看到有些厂商已经有水冷的设备,它的功耗是非常非常强的。
如果我们做了这些不要钱的工作之后,再做一些需要一些钱的工作,就是静态智能散热CFD,我们怎么使它最有效,当我们基础工作做完以后可以用这样的方法。
最后才是动态的智能,动态的智能有非常多的传感器以及情报员,要把热量消灭在动态过程中间,我们不能打阵地战,我们要搞运动战、游击战,要把突然间爆发的热量消灭在出来的地方,使得我们效率最高。
这好像公安局抓一个逃犯一样,中国抓逃犯效率非常高,因为我们有很多监测器,我们的大妈大爷都是我们最好的传感器,如果用公安部对一万个民警在外面排查的话找不到,本拉登找得到吗?
美军这么厉害一点都找不到,但是在中国本拉登肯定无路可逃,因为我们监测器特别多,当我们发现有热量出来的时候第一时间把风能拉开,第一时间把相关空调吹风的压力放大一点,就在这个地方把它给逮住了,然后冷却掉。所以Dynamic就是不希望把整个机房都冷却掉,没有意义,当我们把整个机房都冷却掉,让隔壁的邻居家都不用买空调,吸出去的冷气就可以了,这是没有意义的,我们必须把机房里面产生的热量关闭起来歼灭掉。
通过这样的操作就可以节省更多的成本,我们设计的成本POE都在1.6以下我们只要用0.6相当于原来的功耗解决所有其他的,包括电灯包括一些供电过程中间的转换的损耗呀,还包括空调等等这些方面,现在凡是我们PH设计的新数据中心都可以做到这样的比例。
通过一系列的最佳实践静态的智能和动态智能可以达到10%的能耗,这是一个巨大的节省,也是对人类很大的贡献。
整个来说我们从芯片一直到数据中心的空调全部都是非常有效在每一个层面进行非常细致的研究,从芯片方面来说能够比较动态跟着应用的负载来消耗热量,包括我们的服务器本身它的空气动力学的研究以及包括在数据中心一个非常智能化、动态的制冷扇技术,整合起来HP希望能够帮助大家把电费省下来,甚至我们还可以有一些非常非常极端的节能手段。
比如说我这个数据中心已经没有办法增加电能,没有办法增加空调了,我就是在现有的冷量里面还要进一步加大,我也用的很多这样的技术,还是不够,怎么办呢?
我们也有一些方法,就像沙漠里面还要灌溉还要种田还要种菜怎么办,就是用灌溉的方法,我们把空调的风不再通过开放式的风门开关,我们是冷门用管道在静脉里面注射进去,每一个机位通过管道灌注进去,用这种非常极端的方法帮助大家改造现在的制冷方法,我们已经在一些移动公司里面采用了这样的技术,如果大家有兴趣可以帮助大家操作这样的事情,就是用冷气灌注的方法进一步的节省能源。
所以它也是以一个机架为单位,隔壁的机架热的半死,只要我灌进去也可以照样安全的运作。
经过这样的变化我们就可以在你原有的数据中心里面提高你的密度,也同样可以节省非常多的能耗节能减排,获得最大的经济效益。我们看到有一些方案里面基本上三年功夫一定能够把投资额全部省过来,不仅是对国家做出了很大的贡献,同样为自己节省了很多费用。
所以绿色数据中心最关键还是第一步要整合虚拟化,把没有用的应用全部干掉,能够真正有效运行,对于你业务来说非常重要的留下。第二,就是采用节能的技术,价格差不多贵一点要买一些功耗低的产品。第三,运用最佳实践,包括刚才介绍的冷热风道等等。第四,CFD静态优化。第五,CFD动态优化。经过这一系列的步骤我相信你一定能够达到非常好的效果,节省15%是没有问题的。我的介绍就到这里,谢谢大家!