清华大学航院副教授李震:数据中心冷却方式的研究

李震:大家上午好!我今天给大家报告的题目是“数据中心冷却方式的研究”,今天来这个楼我很有感慨,因为我一直是做空调的,我第一个坚实到真正空调的地方就是这个楼,好多年前这个楼的地下室里,我记得当初有很多蒸汽的管道,那个时候我研究的空调是完全为人来提供一个舒适的环境,同时,也降低代价。现在,我主要研究的领域是数据中心,也就是如何为设备高效节能的这样一个环境。今天的报告本来应该是我的导师江亿院士来的,他临时有事,由我来替他作报告。

大家对数据中心的能耗构成,包括我们现在这个数据中心高能耗的形式已经很了解了,这个会每年都比往年参加的人数要多,我想这个行业越来越兴旺。降低数据中心能耗的途径首先是服务器本身,要提高服务器的使用效率,然后还有两个很重要的就是在电源技术中和空调技术上。我查过一些文献,说目前提高服务器的使用效率上,比原来有15%—25%降低的潜力。作为一个空调的专家,我判断了一下对于现在的空调系统的节能潜力大约有40%,也就是说我们现在普遍使用的系统有40%的节能空间。现在我们普遍使用的空调系统是什么样子呢?对于我们现在大量的小型机房系统,即独立的一百平米以下的政府机构机房,是分体机、恒温,大型的是水冷空调,刚才跟杨老师讨论了半天这里面组织的问题。这个空调系统的功耗压缩机控制在54%,水泵系统18%,室内风机19%。

现在我们数据中心空调面临的瓶颈是什么呢?现在要租出去肯定是密度的要求越来越大,我帮人家建一个数据中心,他们开口就要25千瓦,但实际上5千瓦、7千瓦的机架非常常见。对于我们现在的空调系统来说,单机架超过5千瓦,冷却就很容易出问题,容易出现局部热点问题,往往就是在发热量大的地方会出现很热的区域,这是一个实测的机架,热度不均,底下纵横19度,已经做了冷热通道封闭,它里面存在着大量热风的回流,最高点的温度有的达到了30多度,排风底下是20多度,这个可以忍受,服务器还很舒服,到上面的时候已经达到了40多,所以说局部热点的问题是我们现在普遍面临的问题。

解决方案怎么样呢?无外乎有几种,一个是整体降低机房的温度,因为机房的设计有一定的要求,不得不开启空调降低室内的温度,实际空调的制冷量也小。还有就是在局部加大送风,我见过一些加大局部风的方法,其实还是会对别的地方产生影响。一开始做这个领域我就想到这个方式,就是说在哪发热我就在哪把它处理掉。这里给大家介绍两种形式,第一种就是在服务器或者芯片上冷却的形式,第二种是在机柜冷却的形式,这些都是精确制冷的方式。这是我原来的形式,有的冷、有的热,因为发热不均匀。当我把冷却点引入到每一个机柜的时候,整个机器就不存在局部热点的问题了。现在有人做的芯片的冷却是怎么做的?这个主板上任何一个发热点都设置了这个介质,最后它通到室外,把热散出去,它是直接跟空调系统连起来的,这是它的一个系统,真实情况就是这样的,它把散热端直接贴在芯片上,这个芯片的温度是很高的,比如说五六十度,旁边设一些铜管,在这个实验里,他用的是水泵打到这个里面之后,循环一圈,热水出去。

这是另外一种形式,它是一种板式集约器,直接跟空调系统连起来,把空调的冷水兑到这里面。我觉得这是一种比较理想的形式,因为这个服务器里面的发热点温度是很高的,这个水的温度出来都可以达到40多度以上。如果说我要冷却40多度以上就很容易了,我就不需要制冷了,刚才说的50%几的压缩机的功耗就不用了。大家看这个机柜的形状,这是一个特殊形式的机柜。大家听了之后,可能会觉得这个肯定会跟我有共鸣,就是说这是个最直接的冷却方式,也就是说他能把热直接带到室外去,而且温度高,不用开制冷了。它有两个缺点,复杂的管路对每一个服务器热点都那样处理的话,至少对于我们做空调的人来讲是没有那么大的动力跟服务器厂商说我得把服务器改成这样的形式设计,其实服务器的厂商往往很强势,他不允许有这样的空间被占用。

另外,还有一点,控制难度比较大,那些复杂管路,每个里面的流量是有要求的,如何精确控制这里面的流量,控制难度也非常非常大。对于服务器、芯片集的冷却实现起来比较难,但是作为这个行当的人来讲,是一种理想。我们也申请了一个国家的课题,里面有一项内容就是设置这样的服务器,除了供电之外,可能还要供应冷却和室外空调直接结合起来。我们现在比较落地的就是我们已经做了几个比较成功的案例就是机柜的冷却,因为机柜相对来说比服务器的复杂性稍微简单一点,一个是放在上下,机柜大一点的话,可以单独控制机柜的冷量。还有就是放在前后的背板上,有的人说这是需要占体积的,我们也可以把它放在侧板上。