挖掘数据中心的商业价值

他是某世界500强公司亚太区的CIO,“Wilson”是他按照公司要求每个员工都应该有一个英文名而给自己起的。作为一个土生土长的北京人,他从小叫起来的名字是“慕容”。之所以如此取名,是因为父母都很喜欢席慕容的诗。但在给别人解释时,他更愿意把自己名字的来源说成是武侠小说里那位武功出神入化、博取百家之长的姑苏慕容公子。特别是现在,他脑子里可想不起来席慕容的什么美妙诗篇,只恨不得马上就神功在身,立刻解决掉眼下的烦恼心头事。

财年刚过,公司的CFO就告诉他,由于整体经济形势仍处于不景气阶段,公司决定减少在数据中心上的投入预算,大概缩减了去年投入的20%左右,要他拿出具体的缩减方案来。CFO刚走,CTO就又找上了门儿。因为今年公司要开发几个大型的应用程序,CTO要求公司多添置一些高性能的新服务器。一个是要省钱,一个是要花钱,这一“加”一“减”出来的“亏空”,都要靠他这个公司的CIO来“填补”上。除此之外,公司占地2000多平米的数据中心今年也迎来了第十个年头,超出Wilson当初预想的两年。“需求在增加,数据中心又到了极限,经济不景气的原因又让新建和升级数据中心的事儿往后推迟——这些都让人很头疼。”Wilson说。据Gartner的一项长期跟踪研究,现在许多大企业都在想方设法避免由于升级、扩建或搬迁为数据中心带来的成本。“大型数据中心方面的投入就算不耗资上亿美元,至少也要耗资上千万美元。由于数据中心通常每过5到10年就更新一次,所以这需要大笔资金,于是许多公司都在另辟蹊径。”Gartner研究副总裁如是说。

解决能耗问题

纵然是烦恼在心,但Wilson在答复CFO和CTO时,都是一副礼貌性的笑脸,并信心满满地说:“I’m Wilson,and Will be soon.(相信我,很快就能处理好!)”

虽然口头上说得如此轻松,但Winson在下面急忙做起了功课。他发现,公司整个数据中心的运营成本中,电力消耗就占到了35%~45%,这着实让他吃了一惊。据施耐德电气的研究数据,大部分传统数据中心用电的 47% 都消耗在 IT 负载上,而其余的电力则都被制冷及照明等设备所消耗。换句话说,有53% 电力是被“浪费”的。

业界中用PUE值来衡量数据中心里电力的使用效率,PUE=总能耗/有效利用能耗。“理论上说,设计合理的数据中心的PUE值应该在1.2到1.4之间。”施耐德电气执行副总裁,APC总裁兼首席执行官Laurent Vernerey说。而Wilson经过计算后发现自己公司数据中心的PUE值是2.13。

由此看来,要想缩减预算投入,就必须降低PUE的值,而第一任务便是提高数据中心的能效问题。“想要进一步提高数据中心的能效,首要的步骤是要对能效进行衡量。”施耐德电气执行副总裁,APC总裁兼首席执行官Laurent Vernerey如是说。Wilson经过仔细“盘查”后发现,制冷系统是数据中心里与服务器一样的另一只“电老虎”,耗电量甚至超过了服务器自身的能耗。

Wilson到那2000多平米的数据中心里用了几乎一上午的时间闲庭漫步式的走了一圈,发现一些地方放置的设备往往过多,导致局部热点的出现,从而严重消耗了电力和冷却资源。于是他就让人简单调整了一下机柜的位置,采用背对背式排列,确保机柜背面的气流非常畅通,并让设备得到适当冷却。他还让冷风从机柜底部的前边进入,从数据机柜后侧排出。这种方式与上送风形式相比,让空调风机耗电量节省了30%。“只是简单的挪了个位置,调整了下进风风向,就让我们毫不费力的省却了购置更大功率空调系统和更多电力的成本。”Wilson说。

从业务应用上入手

按照Wilson最初的想法,想靠极力降低PUE的值来缩减数据中心的运营成本,但他后来翻遍几乎所有其他大型跨国公司新建和扩建数据中心案例后发现,获得较低的PUE值往往都会带来额外的成本投入。Wilson心里也明白,省电只是“小把戏”,不足以应付CFO,更与CTO的需求沾不上边儿,关键的解决办法还是要从业务应用上入手,从数据中心里挖掘出新的商业价值来——而这势在必行,因为那一个要省钱一个要花钱的两位“大佬”都在不同场合上有意无意的问过他:“Wilson,be will soon?(快处理好了吗?)”

从业务上入手,那就要看数据中心之于公司业务的角色是什么。在以往,业界内通常是按照规模来对数据中心加以分类,即:大、中、小。而在施耐德通过与成千上万不同行业的企业用户合作与接触后,按照使用需求来分类:第一类是把数据中心当成工具来使用;第二类是把数据中心当成一种投入;第三类是把数据中心当成自己核心的业务。

把数据中心当作自己的核心业务来运营的企业,比如Google、Amazon这样的,会更在意数据中心前期的投入和实际的运营成本,同时会要求最终的整体投入更加高效。若把数据中心当成一种固定投入,比如银行、证交所等企业,他们会进一步要求数据中心有更高的可用性和可靠性。对于一些中小企业而言,他们只是把数据中心当作一种工具,只是要求有很好的可用性就可以了。

Wilson思付再三,决定要让自己的数据中心在支持业务的可用性和可靠性上发挥出更多的价值,这既让CFO满意,有让CTO满意。

在应用上,最先引起Wilson注意的就是处理数据的成本。比如说,公司每周都会有定期的培训和团队建设的活动,参加活动的人会使用公司的服务器、存储系统和带宽资源,来编辑、共享和长时间保留这些图片和视频。为了让数据中心从这些非关键性数据的处理中解放出来,Wilson在照片共享网站和视频分享网站上各开设了一个企业帐户,把管理那些照片、视频方面的所有流程都转移到了外面的网站上面。这样一来,不但省掉了几万美元的存储设备的购买,还减轻了与高分辨率照片、大容量视频有关的资源密集型活动给数据中心所带来的压力,数据中心再也不必提供用于传送视频的专用带宽和用于保留视频的专用硬件了。“把非关键的、非核心的数据迁移到数据中心外面之后,就可以将存储空间专门用于关键任务型项目。”Wilson说。而此举更为CFO所要的缩减方案上,添上了浓重的一笔。

同其他企业的CIO一样,Wilson也想到了在数据中心里采用虚拟化技术。经过测算,Wilson发现公司的全部物理设备支持将近1000个虚拟服务器,这样就可以腾出更多的场地,节省更多的电力和资源。虽然虚拟化技术需要高性能、高密度的服务器,但是Wilson将这批机器整合成几百台节能的物理机器,又进一步降低了数据中心的总能耗,让PUE值也进一步下降。

Wilson还清理了数据中心里“闲置”的服务器,在这些服务器上,仅仅运行着一两个应用程序,利用率及其低下,但耗电量却不低,“经过测量,我们发现服务器开着时所消耗的能量相当于它在满负荷运行时候的50%至60%。”Wilson说。而且,旧服务器的效率往往比用于如今虚拟化项目的服务器低得多。从应用上入手,除了让公司数据中心的PUE值越来越低外,为CFO省的钱比挪动个机柜要多的多了。

下面要做的就是满足CTO的需求了。Wilson仔细想了想,其实CTO所需要的其实并不是多花钱,而是需要更高的计算能力及更多的计算资源。

Wilson调查了下公司开发和测试人员的计算资源使用率,结果发现给他们提供多少资源,这些测试和开发人员就会耗用多少。而且,还发现一些被抛弃或已结束的测试和开发项目仍然在占用着资源。在有的时候,短时间内集中的测试和开发甚至能拖垮整个数据中心的运行。

Wilson清理出来被闲置占用的资源后,专门在数据中心里开辟出了一个区域给CTO,并配备了符合开发和测试要求的、专门的服务器和存储资源。并叮嘱CTO,这块领地只是暂时划归给他,一旦开发项目结束后,便会立即收回资源。并也在有意无意间提醒CTO要确保开发人员使用最严谨的代码,那样开发出来的应用程序才最高效。“这既合理调配了数据中心的计算资源,不必再去另外购置,又满足了开发和测试要求,并在一定程度上保证了开发效率,不啻为一个创新的好方法。”Wilson说。

表面上来看,Wilson所做的这些都是在电力、空间、计算等资源方面的节省和改进。但从业务角度来看,Wilson所做的这些节省和改进,其效果则是对公司整个业务的支撑。公司业务的发展已经越来越离不开数据,而一个可以提供更高可靠性、可用性、安全性的数据中心,为企业带来价值是远远超过能源的节省的。Wilson在数据中心里挖掘出来了更多的商业价值。