近年来,数据中心面临着服务器能耗不断上升的挑战。如何在既定的机柜供电容量和机房空调制冷量的限制下尽可能地在机柜上部署更多的服务器,成为了众多数据中心管理员所关注的问题之一。英特尔今年宣布发布的新产品–数据中心管理平台软件技术–引入了全新的服务器功率限制和分配算法,为更好地解决这个问题提供了完善的方案。
机柜使用率的困扰
数据中心传统上依据机柜供电容量、机房空调的制冷量和服务器的铭牌功率对服务器的部署作出决策。随着业务的扩张和渐进部署的服务器能耗的逐年增长,管理员面临着规划时预留的供电容量和制冷量不足的困境。而另一方面,留有过多余量的铭牌功率,以及诸多服务器极少同时出现功率峰值的现实,却又使机柜供电容量和空调制冷量在实际中没有得到充分的利用。
有效地解决这个问题需要一个可靠的机制,在提升机柜上所部署的服务器数量(即机柜使用率)的前提下,既能限制这些服务器的总功率,以保证其不超过电路的容量和空调的制冷量,同时又尽可能地满足每台服务器的能耗需求,在不断变化的业务负载下把对性能的影响降到最低程度。
完善的机柜功率限制方案
英特尔发布的数据中心管理平台(Data Center Manager:DCM)软件技术提供了对机柜上的服务器的总功率加以限制、并在该限制下动态调整各台服务器功率分配的解决方案。被DCM所管理的服务器可根据用户指定,编成表征机柜、机房的服务器组。用户可以在每一个服务器组上设置总功率所允许的上限。DCM通过带外(out- of-band)协议监测这些服务器的能耗,并预测下一时刻他们各自的能耗需求,分配和指定每台服务器所允许消耗的功率上限,并通过英特尔平台的智能功率节点管理器(Node Manager)技术,有效地将单台服务器的功率控制在指定的限制之内。
结合INTEL EIST技术,节点管理器在不同的CPU功率状态下对服务器电源能耗进行实时的监测,并和所设定的上限进行比较,反复调整和最优CPU的最大可允许工作的P State,在服务器的功率不超过指定上限的前提下使单机的性能最大化。
在服务器组的范围内对各台机器的功率上限的分配调整可以视作一个动态优化的过程。其优化的目标是使总体性能影响最小化,也就是使各台机器的能耗需求和被分配到的功率上限之间的缺口的总和尽可能小。数据中心的业务负载千变万化,下一时刻各台服务器对能耗的需求在某种程度上具有相当的随机性。基于有限的信息,对能耗需求进行准确的预测并非易事。然而,在绝大多数的业务负载中,相邻时刻能耗需求近似的可能性会较能耗需求大幅度变化的可能性大,而服务器实际的能耗和指定的功率之间的关系亦有一定的规律可循。在此基础之上,DCM根据各台服务器前一时刻分配的功率上限和监测到的能耗,对它们下一时刻的能耗需求进行建模,从而有效地对它们的功率上限进行动态地调整。
实验结果表明,在同等的机柜使用率提升幅度之下,相比与对各台机器静态地设定功率上限,动态的功率上限调整能将性能的影响降低14%到80%。
循序渐进的监测与管理
作为一体化的软件技术,DCM提供了各种时间和空间粒度的能耗数据及趋势。通过对这些数据的分析,数据中心管理员能够更好地判断各个机柜的供电容量的利用率和机柜使用率的上升空间,有效地在不影响既有服务器性能的前提上部署更多的服务器,最终使数据中心的总体计算能力获得大幅度的提升。