中国电源协会专家委员会主席、中国数据中心绿色节能专家委员会副主任委员张广明老师作报告,大家欢迎!
张广明:各位上午好!刚才李锋总经理讲得很好,他提出了一个非常科学,也是非常先进的数据中心规划设计方法。我也讲的是关于规划设计的问题,因为现在数据中心这个产业发展太快了,新技术对于如何规划设计数据中心非常重要。我们在建的假如有两千个数据中心,我想还不止这个,就有两千个规划设计小组在工作,这个小组包括信息院、设计院、还有一些专家。我觉得真的是五花八门,在规划设计中存在着新技术和老技术的对峙,新设计理念和传统设计理念的对峙,还有老的设计规范甚至是标准与IT技术发展需要的矛盾,所以变得很复杂。所以,我讲的问题就是强调规划设计的重要性。
但是,因为时间问题,我只能举一些例子。规划设计决定着数据中心的性质、商业需求目标、规模,近期和远期升级扩展计划,可用性级别、能源效率预期目标。这些是规划设计决定的。规划设计指导和规定了数据中心的整个过程,实际上对设备选型、施工安装和运行维护都做了明确的规定。这两句话讲的是不是有点过头了?自己细看一看,你数据中心建设过程中和建成以后发生的一系列问题都可以在你的规划设计图中找到,你当时是怎么考虑的,你哪一点考虑不够,哪一点是落后的,都可以在这个规划设计中找到,后来都发生了。
这个图是沈老先生提出的图,它的基础设施四个分系统里头和规划建设四个阶段里头,规划设计都是最主要的。比如说供电系统,供电系统的规划设计、设备选型、施工安装和运维维护里面,圈最大的是规划设计,圈最小的是设备选型。但是我们的规划设计现在的现状是什么呢?圈最大的是设备选型,它是反过来的。
规划设计,你头脑里首先要想到,当前的问题是什么?有人总结IT技术进步对数据中心基础的挑战主要是三个问题,一是可用性,这在十几年前就提出来了,也就是连续运行的能力,第二是热量管理,也就是密度的提高,空调制冷的问题。第三是电费的问题,也就是效率的问题。纵观当前设计的重点和存在的问题,弄来弄去都归结到这个方面,技术的进步、争论的焦点、投资的重点都在这三个方面。但是,由于这些新旧观念、新旧技术对峙的规范以及与新要求的矛盾,使整个数据中心规划建设就产生了很多问题。
我对它进行了总结,一共30多个问题,这30多个问题我今天能讲几个就讲几个。第一个问题,数据中心的价值是什么。这个问题我觉得作为信息主管和规划设计里面,首先要明确这个,就好象你建一个楼堂馆所,它的价值是什么,比如说一个剧院要舒适、美观、大方,但是最关键的是它的音响效果要好,这是它的价值。数据中心的价值是可用性、适应性和总拥有成本,这三个方面也跟我前面讲的挑战是一样的,大家努力也是努力在这三个方面。
规划设计阶段要决定的事情很多,业务的定位、建设的规模、选址的问题、可扩展的能力问题、可用性问题、经济性,还有可服务性等等。
但是不科学的、非规范化的规划设计主要体现在两个方面,刚才施耐德的讲话正好说明了这一点,第一是凭主观臆断确定数据中心规模、预算、建设进度、PUE。大家想一想,特别是信息主管领导是不是这样干的?你有多少确切的数据来支持?当然,有的还是很严格的,这方面的问题很多,凭主观臆断,这是第一个大问题。
第二个大问题,在功能和技术可行性不明确的情况下首先从工程细节和设备采购入手,我觉得这是我们一贯的习惯,一讨论我们的规范设计,我要用什么样的空调等等,本末倒置,他好像先选用了方案和技术,设计的时候反过来填空。如果我要选什么样的设备,面积多大、承重多大,他是反过来的,所以规划设计时要解决这两个问题。刚才施耐德的讲话我觉得太好了,当然,施耐德这个能不能实现呢?我们做不到,是一个目标,说明人家是走在我们前面,很先进的。
还要特别注意,规划设计中约束条件和选择的倾向性和喜好一定要区分开来,我们很多的规划设计设备选型是凭喜好和自己的倾向性来选择的,这个要特别注意,它往往破坏你的整个规划。因为这个喜好、倾向,一般不是要很科学的论证的,它是经验、实践、道听途说,或者其他的原因决定了我就用哪个厂家的,这是我们的弊病。
还有供电系统的规模和容量怎么确定,这个就不细讲了,但是我讲这里面的一个问题。就是说现在我们讲先确定多少个机架,然后占地面积多少,每个机架5000瓦,我遇到的一个规划设计这些信息里面,80%、90%都说5个千瓦,是不是这样?在考虑空调制冷方案的时候,一定要考虑最大功率密度的机架,你要把它解决掉,让它能工作。但是,你考虑整个供电系统容量的时候,一定要考虑平均功率密度,你不能用最大。事实上有的单位已经做过这个测试了,就是我这个机房里头,机柜按照标准摆,我按照IT设备的标准配置塞满了,其中包括了有的地方要用刀片,有的塞满了,它的结果是平均2.7个千瓦。所以,如果说你在三个千瓦的平均密度来计算你的数据中心、总容量的时候,你这个数据中心已经是高密度数据中心了,其中可能有5千瓦、8千瓦、15千瓦,你不能用5千瓦来计算总量,所以这也是一个问题,这个问题的后果大家自己去想。
还有,当前UPS供电系统存在的问题,简单说一下。实际上问题表现在各个方面,比如系统的可靠性问题、系统成本和能源消耗问题、系统的标准化问题、系统的灵活性、可扩展性变更问题,维护难、使用难的问题。但是,我们对供电系统往往特别注意以硬件故障形式表现出来的问题,哪个坏了,哪个UPS宕机了,哪个开关不行了,往往看到的是硬件故障对于整个系统带来的问题,过度的利用率很低等等反而注意得不够。为什么这样呢?按照传统的硬件故障很容易去查责任,谁坏了就是谁的,马上把厂家叫来解决。其他的问题,比如可扩展的问题、效率低的问题、管理能力差的问题、维护难度大的问题,没法追查责任,找不到责任人。反正设计的时候领导签字了,设计院设计完了,甲方一签字,我责任全免了。所以,真正的问题,硬件故障不是大问题,其他的反而是大问题,但是它要在三五年以后才能表现出来,在实际运行层面表现出来。设计理念的变化就不讲了,供电方案布局也不讲了。
我讲一下柴油发电机这个问题,这是现代数据中心必备的设备,原来功率密度比较低,制冷问题很容易解决,它不突出,现在由于功率密度的提高,必须用柴油发电机。这个应该作为一个结论,不要再怀疑这个事。柴油发电机怎么选择呢?现在仍然有很多设计院在用UPS选择发电机,这种方法是不对的。如何选择容量?一定要注意,发电机是第二路交流能源,你要这样去选择。但是,如果说你里面UPS使用的是结构大的,或者空调设备启动电能大的,那你还要加大。所以说,如果谁用UPS容量,油机的能量肯定3以上,这是个选型方法的问题。还有一个困扰的问题,就是油机转化的问题,如果用高压的油机没有什么问题,用低压的油机肯定会出问题。如果这个油机是专门为你供电的,可以,这个与规范是矛盾的,电力部门一下子就卡住了,不符合规范就不给你签字。电池的问题,这个观念改变了,原来电池的功能是停电以后,维持向继续负载供电。现在是电池没有维持数据中心继续供电的功能,不管是UPS还是空调供电、还是EPS,不管是什么,电池都不具备继续供电的功能。因为我们讲的继续供电是连续供电,电池不具备这个功能,那么电池功能是什么呢?电池是在故障后,在油机启动和转换过程中维持供电,所以这个观念一定要转过来。由于这个观念的转变就带来了新的问题,电池容量是多少,油机的转换时间,启动时间典型时间是10—15秒,转换时间几百毫秒,所以说电池要打很大的余量,十分钟足够了。还有重新审视UPS的性能,如何选用UPS,这些就不讲了。
还有模块化的设计,我们理解模块化要广义的去理解,不要说UPS就是模块化。模块化设计是现代数据中心基础设计必须遵守的原则。为什么呢?现代数据中心一定要连续工作,那么就一定是可快速修复的系统,一个可快速修复的系统肯定是模块化的。模板化的特征是什么呢?它有独立的功能,可以整体拆卸、更换,一台UPS是一个模块,一台空调是一个模块,最简单的模块是一个电缆,这个电缆的功能很清楚,流电流。但是我们现在的数据中心没有全部达到这一点,表现到从物理结构方面是门的高度、宽度,走道的宽度,还有设备维护空间,工具的使用一系列问题。比如说电缆,80%、90%老的数据中心的电缆是不可修复的,一个最典型的电缆模块在你这边失去了模块化功能,根本没有可快速修复功能,所以模块化设计一定要提到一定的高度来看待。
模块化UPS本身就是N+1系统,但是它是集成了的N+1系统,然后再加上可拔插的模块化的设计,所以模块化和UPS肯定是发展趋势。集成有集成的好处,模块化快速修复有快速修复的好处。
供电方案,我们一般是参考美国的标准,我们现在的数据中心绝大部分都用第三级、第四级,特别是第四级是故障容错功能。有的人解释我们国家的标准,说一级是冗余系统,另外一级是容错,这句话是不对的,冗余就是容错。这就不细说了。主要讲讲具体的,比如2N冗余系统建设的问题,如果前面的UPS用了一个,整个系统是N系统,只有UPS才叫2N系统,你花那么大力量把UPS建成了2N系统,你前面用一个ADS堵住了,变成了N系统,所以说2N系统的建立一定要把前面ATS变成完全独立的N系统。
第二,就是UPS输出端不应该再用STS,这个STS应用要求前面两路同步,前面两路同步的时候,就是单路故障点,这种2N系统真正的是N系统,不是2N系统。如果一个50千瓦、60千瓦、一个40千瓦,这时候你前面的2N系统容量不变的情况下,变成了两个N系统和一个N系统。还有冗余再冗余的问题,很多地方是对UPS不放心再冗余,这个效果你看后面的结果,这两个系统可用性都是4个9,差别在什么地方?小数点第八位差了一个1。
供电系统的布局和安装问题,我这里面特别提到这几点,因为搞机房建设的,他们搞得很细,他们懂得最多,但是从供电系统要求来说,第一个,一定要注意可修复性要求,你安装完了,你可不可修复。有的竖井里面把电缆挤得没办法了,是不是可修复的。还有可改造、可升级、可维护,可维护的因素很多,我就举一个简单的例子,我们到一个数据中心去查问题怎么也查不出来,后来我就想去查它这三项,我不看它的界面,我要自己去查一查,我这个前表进不去,这个问题就大了,你别觉得是小问题,我就没法修,维护它就很难,还有很多其他的问题,就是可维护的问题。
还有节能的问题,对于节能的看法,我的意见是这样的,我觉得现在关键是测量问题、是定义问题,我们有些问题,比如说制冷,假如提高来是1.25,肯定IT设备是1,制冷只用了0.25。或者供电系统的问题,它不是整个PUE。我举个例子,假定你这个数据中心是非常先进的,你的IT设备全部发热,供电系统0.15发热了,空调系统肯定也有0.1发热了,制冷风机、温湿度调节都在发热,比如加起来是0.3,也就是说发热的能量是1.3,假如你用了水冷,你的能效做得非常理想了,做到5。一般的数据中心的制冷能效比是2,你做到5,1.3除以5是2.6,IT设备是1,供电是0.15,再加上2.6,是1.36。再加上温湿度调节本身的功率、风机的功率,再加上灯,整个全加起来,你再把功率算到高压变压器的前面,除个0.98,我的推算是,最先进的所有的节能措施都用了的,不能定义为1.7,极限。如果你用自然能源的,制冷的部分先拿掉了,它的极限值是1.3。如果其他的你要考虑他这个指标是不是整个数据中心的PUE,还是局部系统的PUE。还有,就是它的数据是哪来的,测的方法对不对。
我就讲这么多,谢谢大家!