数据中心断电事故频发 你的机房真的保险吗?

如今企业的信息系统已经更多的集中到以数据中心为核心的系统平台。与此同时,全球化令企业业务规模快速发展,也使得系统平台更加庞大,所需要处理的数据规模呈现爆炸性增长的需求,企业业务对系统平台的依赖性与日俱增,这就对以数据中心为核心的系统平台的可靠性提出了非常高的要求,一旦数据中心有任何闪失,随之而来的将是收入损失、停产、生产力降低、处罚/诉讼、客户丢失等有形损失,以及会产生负面效应、客户不满、企业信誉降低等无形损失,可谓是牵一发动全身,确保企业业务连续性已经是当今企业最重要的课题。

企业数据中心建设涉及建筑施工、强电、弱电、暖通制冷、网络、消防、监控、机柜微环境和装饰装修等多个工序,几十个关键环节,上千种产品和型号,这些基础设施还要与上层服务器、存储和网络等IT系统进行有机的配合,其复杂性已经远远超出了一般企业IT技术人员的能力范围,没有高水平的技术人员以及丰富的实践经验是没有办法应对数据中心高可靠性运营需要的。与此同时,居高不下的运维成本,也使得企业数据中心很难依靠自身的力量管理发展。在这种情况下,越来越多的企业开始把目光投向了那些具有高可用等级的公共数据中心服务,为了与现有IDC数据中心业务进行区分,人们将具有高可用等级的公共数据中心服务称为EDC。

与IDC业务相比,EDC具有更高级别的数据中心可靠性,具有更加完善的基础设施平台,以高效可靠供电为例,EDC会提供双路市电,外加柴油发电机的供电保护,其中每一路市电均配有N或者N+1的UPS供电保护,如此一来,任何一路市电供电中断,都不会影响IT系统的供电。即使两路市电同时中断,也还有柴油发电机的供电保护,按照设计要求,柴油发电机通常有不低于72小时的油料储备,同时这些数据中心还与其附件的加油站签署有油料保障协议,几乎可以做到万无一失。

但真的是这样吗?我们不幸地看到,不断有高等级数据中心宕机事件见诸报端,如2011年12月13日,亚马逊旗下英国、法国、德国和西班牙数据中心宕机超过一个半小时,在过去的几年时间内,全球最大的支付平台PayPal、Google gmail系统、微软数据中心、iWeb CL数据中心、Chase.com网上银行、knocked Intuit网站数据中心均发生过严重的宕机事件,有些宕机时间甚至超过了24小时。国内的高等级数据中心也不能够幸免,有些具有2(N+1)外加柴油发电机的可靠供电保障的数据中心,也一度发生了电力中断的事件。

谈到数据中心高可用性,万国数据副总裁梁艳表示:“数据中心高可靠性并不仅仅是高等级数据中心设计以及产品设备的简单堆砌,高投入并不一定带来高可靠。数据中心的高可用性需要一整套管理的方法论和指标体系,其中,很多需要进行量化。为此,万国数据创造性地提出了适用性的概念,强调可用性的建设应该围绕业务发展的需求,通过整合ISO20000、ISO27001、BS25999标准在可用性方面的要求,结合自身多年的实践,创造了业界首套IT高可用管理体系方法论,从评估、规划、实施、运行与监控等5个层面实现。同时,通过引入制造业 SOP的管理方式,对数据中心的标准作业进行管理,从而为用户提供专业化的指导和安全高可用的保障。”

仍以高可靠供电为例,2(N+1)外加柴油发电机的保护只是基础,还需要高可用的管理体系,依靠运行管理,及时发现系统在运行中的隐患。目前很多数据中心还停留在事后告警的阶段,即发生了故障或错误提供告警,根本不具备主动式高可用实时监控服务的能力。如果监管水平到位,将可以有效提高数据中心的可用性,避免数据中心中断给用户带来的损失。

对于用户而言,也需要挑选哪些真正具有高可用等级保障的公共数据中心服务,有些数据中心对外宣传具有高效可靠供电的保障,设计了2(N+1)外加柴油发电机的 安全保障,但实际上,仅是在某一个特定区域按照2(N+1)设计,用作样板工程和对外宣传,这就需要用户在柴油发电机配置台数和总功率方面认真加以核算,挑选哪些真正具有高水平的保障的数据中心。