今天IT对于一个公司变得越来越重要了,如果没有它,大多数组织将无法为客户服务,无法和合作伙伴协作,无法开发新产品,甚至连开展最基本的业务可能都困难。因此,数据中心的可用性已经成为提高公司竞争力和盈利能力的重要先决条件,然而,尽管尽了最大努力实现了5个9的可用性,但企业仍面临各种各样的威胁,其中最主要的问题就是电力系统。数据中心依赖稳定持续的电力供应,但在电网中任何一个细微的电力系统设计漏洞,都可以轻易地使现代先进的数据中心停止运转。
幸运的是,企业通过改变他们的业务流程和电力系统管理办法可以大大减少停机时间。这里讨论了建立和维持数据中心电力基础设施高可用的10个方法,希望对你有帮助。
1.打破组织障碍让IT和设备两部门不再各自为政
大多数企业都有两个部门负责数据中心的管理:IT部门和设备部门。IT部门负责监管数据中心的计算机基础设施和应用程序,一般向CIO汇报。设备部门负责能源和冷却要求,一般向首席运营官(COO)或企业副总裁汇报。这种划分的组织结构,在大企业中存在很长一段时间了,这两个部门之间通常缺乏有效的沟通。
在历史上,即使IT和设备部门缺乏沟通,对数据中心的可用性也没带来多少危险。但今天,大型数据中心电力供应已日显不足,IT管理人员开始重新配置服务器和工作负载,因为他们不想让电力和冷却系统压力过高。
当今的服务器基础设施变得越来越庞大,产生的热量越来越多,耗电越来越厉害。此外,广泛采用的刀片服务器和虚拟化技术,虽然简化了管理,提高了服务器的利用率,但也极大地提高了计算密度和发热量。要知道,在今天的数据中心中,如果未咨询设备工程师就随便移动硬件,很可能会导致电力负荷超载,或使暖通空调(HVAC)系统散热效率打折扣,致使关键业务系统受到影响。
然而,不幸的是,虽然数据中心最近几年已经发生了巨大的变化,但其组织结构却没有变化,IT和设备两部门依然各自为政,对重要运营事项缺乏充分的沟通。
推荐方法:为了降低与电力系统相关的停机概率,企业应该建立明确的业务流程,明确定义数据中心在实施变更前IT管理人员和设备管理人员应该如何以及何时交换意见。为了进一步促进IT和设备部门之间的沟通,企业也应该考虑调整组织结构,如让IT和设备部门向同一个主管汇报,这样可以促使IT和设备部门员工之间更容易互动和交流。
2.不要看短期成本,更应看长期价值
在许多企业中,在数据中心建设或改造期间,短期和长期优先权往往会发生冲突。高级管理人员往往都要求负责数据中心建设的人降低成本和缩短工期,因此,数据建设项目的供应链参与者、工程师、建设者和项目经理都倾向于选择那些投标报价最低、承诺最快交付的投标企业。
但负责数据中心运营的人有不同的想法,他们希望公司更看重长期利益,最便宜的硬件确实可以降低数据中心的建设成本,但如果这些廉价的设备不能满足最初架构设计中定义的运营技术规格,会降低效率和正常运行时间。
推荐方法:数据中心建设或改造项目的评审和决策管理人员应该仔细审查采购决定,各级管理人员应注重长远效益,不要贪图短期的节省。他们也应该严格执行最初设计的运营规范,哪怕施工过程中多一点消耗也是值得的。
公司在为设施建设管理人员确定目标时,应尽量少强调近期降低成本的目标。如果不奖励施工队可能会引起他们的不满,施工时偷工减料,这对数据中心的长期运行的可用性带来了潜在的不利影响。
3.采用标准化工作流程,减少随意性
IT部门越来越多地开始使用标准化的最佳实践框架,如信息技术基础设施库(ITIL,InformationTechnologyInfrastructureLibrary),来帮助他们更系统化地优化工作流程。ITIL最初由英国政府在1980年开发,它定义了明确、有效和可重复的方法来处理事件管理,服务台的运作和其它常见的IT任务。遵循ITIL规范执行的组织通常可以更好地控制资产,使他们更容易诊断和解决IT中断。
不幸的是,很少有组织采用了严格、统一的维护流程,而是依赖于即兴的过程和设备管理人员累计的经验,因此,电力和冷却系统的维护标准往往低于IT系统,造成停机时间增加。
推荐方法:虽然设备维护流程框架还没有向ITIL那样开发彻底,但设备部门应该开发自己的流程标准,如果能够用一致、可重复的方式完成一些基本的活动,可以大大降低电力和冷却系统出现故障的可能性,同时提升了设备技术人员的生产力。
4.维护一个设备变更管理数据库,别因小失大
航空工程师和维护专家早已理解了变更管理流程的重要性,维持一个全面准确的飞机维护记录是确保飞机安全飞行的关键。此外,遇到发生不幸的意外后,维护记录可以提供极其重要的法律依据。与此相似,ITIL特别强调应仔细跟踪IT资产的变更,并将数据保存到变更管理数据库(CMDB)中,CMDB中的信息可以帮助IT人员更有效地解决服务中断故障,在应急情况下特别有用。
然而,不幸的是,很少有设备部门维护了CMDB,唯一的记录可能都是几年前搭建系统时移交而来的,大部分数据都装在设备管理人员的脑袋中,如果设备管理人员离职或退休,这宝贵的知识就流失了,当电力或制冷系统出现故障后,引起的停机和恢复时间可能很长。
推荐方法:设备部门应该建立和严格维护一个他们自己的CMDB,ITIL规范提供了一个有用的出发点,企业也可以购买专门的CMDB软件。
5.电力系统选型,可靠性和维护便利性两手都要硬
人们经常使用可靠性和可用性这两个词语,但实际上它们表示的含义却有所不同。可靠性是指衡量系统发生故障之间的平均时间,也叫做MTBF(MeanTimeBetweenFailure),另一个是指恢复系统所需要的时间,也叫做MTTR(MeanTimeBetweenFailure)。对于可用性有如下公式:可用性=MTBF/(MTBF+MTTR)
服务器、交换机或电源可能十分可靠,很少出现停机故障,但它们可能并不具备高可用性,因为它们有较高的平均修复时间(MTTR),但IT部门在评估系统的可用性时常常忽略修复时间。
比如,假设公司要决定在总部是采用普通的荧光灯管还是更尖端的LED灯管。LED的可靠性更高,因为很少出现机械故障,但出现问题时,如果本地库房或当地经销商处没有备用的LED灯管,那么替换出问题的灯管可能是一个非常耗时的过程。另一方面,荧光灯管的平均无故障时间大约6000小时,可靠性差得多,但是要更换它们很迅速,价格也很低,因为它们是一种标准产品。同时考虑可靠性和平均修复时间,荧光灯管实际上可能比LED灯管提供更好的可用性。
同样的逻辑也适用于电力系统中的基础设施组件,原本设计不间断运行的系统,如果修复操作比较耗时,那么长远来看并不能提供高可用性。
推荐方法:评估电力系统组件时,企业应寻找可靠性高,且能快速修复的产品。尤其要仔细调查电力系统制造商如何快速有效地提高产品维修服务,如核实该制造商雇佣了多少服务工程师,他们驻守在哪里,当你的数据中心中断后,他们如何才能迅速抵达现场?是24*7小时支持吗?服务工程师对该制造商的产品了解得有多深入?如果他们不能解决问题,是否有其他办法?如果制造商不能在故障发生后快速地派遣经过严格培训和有准备的服务人员到场,即使是最精良和可靠的电力系统最终提供的可用性也穷得可怜。
企业还应该寻求具有冗余的和模块化设计的产品,如果一个模块失败,其它模块自动顶上,提高了系统的MTBF。此外,模块的更换也更容易,通常一两个技术人员就可以快速安装上,甚至不需要制造商的协助,因此MTTR就大大降低了,可用性就更好了。
6.实施企业级监控和主动诊断,防患于未然
很少有系统在失效时没有警告,特别是发生灾难时,问题是,这些警告常常被置若罔闻,因为监控系统是有反应的。例如,假设UPS在一个深夜出现故障,使你的数据中心受到拖累。UPS一般会在出现故障前发出暗示信号,也许UPS或它的电池开始过热或显示性能下降。但如果设备管理人员不监测这些性能指标,直到发生故障后,他们才知道发生了什么。
7.居安思危,建立全面的应急计划
每个数据中心都会严重依赖于外部水电气供应商,而每个供应商实际上都是提供基于经验的保证服务,难保万无一失。问题关键在于你是否准备好应对危机的发生。
大多数数据中心都维护了一份水或电应急计划,停电时,这些计划一般包括利用柴油发电机,直到电力恢复。但如果需要柴油发电24到48小时,许多公司可能根本没有储存足够的燃料。这种情况不是没有发生过,2003年8月,美国东北部和加拿大部分地区发生大面积停电,时间长达数天,影响到5500万人。许多公司,包括主要的金融服务供应商,在电力恢复之前,他们的电力燃料都被用尽,但服务又不能停,因此只好花高价购买燃料。
推荐方法:IT和设备部门可以直接控制许多可能引起数据中心停止运转的问题,但即使是设计优良,仔细建造的设施超出了组织的控制也变得非常脆弱,因此,企业必须思考影响数据中心的外部因素,仔细权衡它们的利弊。
例如,囤积足够的柴油燃料和冷却需要的水资源,至少保证5天的用量,超过48小时的断电可能超乎你的想象,2008年12月,暴风雨袭击新英格兰时,远在纽约的超过100000名客户在将近一周的时间内都无电力供应。
谈到应急计划时,“保持乐观的态度,但要做好最坏的打算”是大家默认遵守的原则。
8.电力系统冗余度,不求最高,但求适用
电力系统拓扑结构其实对采购成本、运营开支、可靠性和平均修复时间有重要影响,冗余越多,建设和运行成本就越高,但恢复时间也最短。Uptime协会为关键应用设备定义了四个电力系统拓扑:
可见,一级和二级比三级和四级的成本相对要低一些,但可靠性和正常运行时间也要低一些。
推荐方法:在选择电力系统冗余度时,没有标准的正确答案,组织应该使其电力系统拓扑匹配它自身的特殊情况以及需求。例如,二级拓扑可能适合于那些托管Web应用程序的数据中心,假设有多个备份站点可用,因为用户偶尔遇到几秒钟延迟也不太会抱怨。但在华尔街,几秒钟的延迟可能导致数百万美元的亏损,所以承担金融交易的数据中心应该采用四级拓扑。
9.替换陈旧的UPS设备,这个不能省
电力异常可能会影响到敏感的电子设备运作,如果组件断电,可能会对整个企业带来严重的影响。数据中心一般都会使用UPS保护电力异常,在电源中断期间提供应急电力供应,但直到最近,大部分高可用双转换UPS系统的电力消耗仍然很高,因此,组织希望压低运营成本,可能实施能源效率低于平均水平的UPS产品,同时组织关注得更多的是正常运行时间。
推荐方法:UPS技术日趋成熟,使企业可以同时兼顾高可用性和高效率,使用旧UPS技术的公司应该考虑升级到新一代设备,以提高应用程序可用性,同时降低总体拥有成本。
10.审核你的电力系统,做到心中有数
大多数数据中心管理人员都认为他们知道其电力系统的供电能力,但其实真正知道的却少得可怜,这是因为大多数企业没有定期审核电力基础设施的缘故。只有通过审核电力系统以及你使用的业务流程,你才能建立你数据中心的最大负荷参数,而不是依赖建设规格和承包商的保证,这样让你容易陷入容量不足的风险,当你需要投入重要的新IT设备进来时,有可能会因电力不足导致延期。
推荐方法:定期彻底地审核你的电力系统。
总之,维护今天越来越大、越来越热、越来越复杂的数据中心变得越来越困难,并且战略意义更加重要,特别是考虑到全球化、可持续发展的压力。一些企业已经利用各种技术确保关键业务IT系统享用到可靠的电力。
上文讲到的10种最佳实践几乎用尽了各种方法,企业可以保护它们的数据中心电力相关的服务中断。同时企业应该认真研究最佳数据中心的做法,并采用符合自身需求的技术。相信大多数组织通过上文经过验证的最佳实践可进一步减少停机时间,其中一些做法显然要在硬件和软件方面增加投资,但更多的是流程管理问题,就像让IT和设备管理人员彼此交流一样简单。现在,行动起来吧!