深度技巧:服务器电源的节能方案(1)

传统的数据中心大都通过UPS来给服务器供电,为了保证系统的高可靠性,通常采用了2N甚至2(N+1)的UPS冗余配置,得到两路独立输入给双电源服务器。然后服务器内的两个电源同时工作均分负载输出12V以及5V等电压给主板和相关部件供电,主板上还有一级VRM电源再将12V输入进一步降压到1.3V等电压给CPU以及周边芯片供电。整个供电路径非常复杂以及多处冗余,造成真正用于计算的能源不足30%。

UPS环节的节能其实可以通过采用一定技术手段,达到不太牺牲可靠性的情况下实现高效率,而且业界已经有很多大规模运行的案例,具体可参考拙作《数据中心市电直供方案介绍》等。

而服务器电源环节的节能往往受制于服务器设备厂商,毕竟一般用户无法定制服务器并且在电源效率指标等方面没有太多话语权。更为主要的是目前数据中心的能效指标,比如PUE等是不考虑IT设备内电源损耗的,因此一直没有得到足够的重视。这里也呼吁早日定制服务器设备的能源之星标准,或者按SPUE(Server PUE,即真正用于设备供电末端有效的能源利用指标)来反映数据中心的绿色节能水平。

言归正传,我们再分析传统双电源服务器的工作情况,以便找到节能办法。其原理是正常工作时候每个服务器电源自动均流各承担一半负载。当其中一个电源出现故障或者异常时候自动退出,另外一个则承担起全部负载,保证设备的可靠供电。

这种模式下设备的可靠性是得到了保证,但却是以牺牲系统效率为代价的。我们知道电源的效率和负载率有一定的关系,通常是负载率越低效率越低,其效率曲线并不平坦。

而且通常IT设备厂商在选择服务器电源的时候为了保证系统可靠以及减少物料种类,会选择容量较大的成熟电源,来覆盖尽可能多的各种不同型号不同功率的服务器。比如主流的两三百瓦功耗的服务器会采用750W,甚至是1100W的服务器电源。那么这种情况下采用双电源同时工作的服务器其电源负载率会很低,往往只有20%多,此负载率下普通电源效率只有80%左右,尽管这些电源的最高效率号称达到90%以上。造成本该用于计算的能源大量浪费,而且散发到机房中还需要额外的空调能量来散热。如下图,某型号服务器能耗分布图中占比达44%的other部分其实很大一部分来自AC/DC转换环节的能耗。

为了解决这个问题,我们自然而然想到几种办法,一种办法是采用高效率电源模块,特别是轻载下的高效率电源,这样即便两电源同时工作均分负载,但在低负载下仍保持较高效率,保证了系统的低能耗;另一种办法是仍采用两个模块互为备份,但正常时候只让一个其中一个电源带载,另外一个处于备份,这样来提高工作电源的负载率,从而提高服务器电源的效率;还有一种办法是采用其他的备份技术,比如虽然设备只有一个服务器电源,但在其12V输出端挂接电池备份,来替代另外一个电源。这样即便工作电源出现输入掉电,但仍有电池等备份保证系统继续工作,直至柴油发电机起来继续供电。最后一种办法是采用集中电源供电方案,单台服务器内不再有传统的AC/DC电源,集中电源插框得到12V通过背板铜母排直接给每个服务器单元供电,这样电源负载率很高,而且可以用更少的电源,进一步降低成本,在下面分别介绍这几种技术。

1.1.采用轻载下高效率电源方案

这种方案实现起来最为容易,只要采用轻载高效率电源模块替代传统服务器电源即可,这样即便服务器电源的负载率只有20%甚至更低,仍可以得到较高的效率。但通常这种方案也是成本最高的,因为首先电源模块的高效率需要采用超低功耗器件开关器件,比如超低Rds(on)的MOSFET、SIC二极管或者GaN器件等,以及新拓扑技术等,价格肯定不低,而且在此基础上还要保证轻载下仍有高效率,那么技术难度和成本会进一步增加。此外双电源方案采用了两个高效率电源,那么比单电源方案的投资要大。

这里也简单介绍一些轻载下高效率的技术方案,比如采用multiphase或者interleave等技术,原理是采用多相电源或者交错技术,当电源工作在轻载下时,那么可以关掉其中的一些相,仅保留需要的路数在工作,达到高效率目的。这种技术也增加了系统复杂性以及电源价格,当然软开关技术、低损耗器件以及合理设计也可以大大提升轻载下能耗。

1.2.采用只让其中一个电源带载,另外一个备份方案

这种方案的典型案例是facebook的市电直供服务器加48V电池备份方案,每台服务器配一个277V交流输入电源以及一个48V直流输入电源,并用48V电池作为备份,两电源模块的12V输出并在一起给设备供电。交流电源输入电压范围为180V-305Vac,掉电保持时间最少20ms,输出过压保护15V,风扇转速随环温调压控制。电池备份采用另外一个450W DC/DC电源,当5ms内发现AC掉电,最大10ms内开始DC供电,过渡期间两者同时供。

由于市电输入服务器电源在满负载下有10到20ms的输出保持时间,那么在轻载下输出保持时间可以到30ms以上,假定10ms内检测到市电停电,唤醒休眠的48V电源并建立输出电压需要10ms内,再预留10ms的buffer,那么可以在市电停电时唤醒48V输入电源,并平滑过渡。

这样,市电正常时候交流电源承担全部负载,此负载率下电源达到最高效率。48V电源处于冷备份,功耗很少,几乎可以忽略。这种方案主要的风险是需要在很短时间内唤醒备份电源,并平滑过渡切换到备份电源。该风险的一个解决办法是采用长输出保持时间的服务器电源,那么这种电源需要较大母线电容或者采用较大功率电源来降额使用,这样做也可能反倒造成效率降低,因此较难平衡。当然也可以选用热备份方案,牺牲一点效率,来保证切换过程中的可靠,毕竟可靠才是第一位的。

1.3.采用单电源加电池备份的方案

该方案的典型代表是Google的12V挂电池方案,采用分布式电源加分布式电池互为备份,原理是每个服务器带一个电源并配一个12V铅酸电池,市电正常时候市电直接给设备供电并同时给电池充满电,市电中断时候电池放电备份几分钟,直至柴发起来继续供电。

从网络上摘抄的一些该电源的简单资料如下:1、电源输出13.65V,额定输出电流20.5A,这个服务器的功耗大家可以估算了,不会超过250w,因此负载率很高。2、关于电池,免维护铅酸蓄电池无疑,从公开的资料上看其容量只有3.2Ah,充其量只能够维持5、6分钟。这个时间足够保证电池在耗尽之前,柴油发电机能起来继续给电源供电,保证系统不掉电。

该方案的核心技术是电池管理及切换控制,原理如下图所示,当市电正常时,直接整流得到13.65V给主板供电(选择13.65V主要是考虑到线上压降,以及电池电压),同时给电池充满电。电池充电电流由RBATT采样电阻来限制,保证不会有大电流对电池充电造成电流充爆;当市电停电时候放电通路马上打通,电池直接给负载放电,直至柴发起来继续供电。

随着未来SSD硬盘技术以及风扇PWM调压技术的发展,以及主板上VRM电源的输入范围加宽,那么对12V的稳定性不再要求在5%以内,此时可以直接在12V上挂电池并进行电池的均浮充管理,那么这种12V挂接电池方案的应用会越来越广泛。

1.4.集中电源供电方案

微软在2010年推出ITPAC的机柜服务器方案,从概念图上看机柜采用集中电源供电,并在12V母排集中挂锂电池备份方案。分为上半区和下半区单独供电,单机柜达到18.6KW功率给96台服务器供电。市电正常时候直接给设备供电,市电停电后靠锂电池过渡,直至柴发起来。

选用的4.5KW的服务器电源也是高效率的电源模块,通过12V集中母排给服务器子机单元供电。

这种方案大大减少了整机柜的服务器电源模块数量,从分布的每台服务器需要两个电源减少成整个机架只需少量的电源模块,这样选择单位瓦数价格更低的中大功率电源。由于插框电源通常采用N+1配置,这样保证了即便出现某个电源模块故障系统仍能可靠工作。且N+1配置情况下,电源模块的负载率得到大大提升,保证了电源的高效率。

这种在12V母排上挂电池的方案还可以进一步节能,比如利用智能节能休眠策略,在设备CPU利用率较低时候,可以关掉多余的电源模块,让电源工作在最高效率点;而在CPU利用率高的时候启用更多的模块;在两者的切换过程中通过电池作为瞬间负载的buffer。保证在全负载范围内都实现高效率,真正实现动态能源管理。

结语

服务器电源有很多潜力可挖,采用合适的供电结构以及通过一定的技术手段,在保证统可靠性的情况下,实现较高的效率,达到很高的投资收益比。