剪不断理还乱 数据中心出故障该怪谁?

分析导致数据中心事件的故障可能会让内部的IT操作人员与承包商和供应商互掐。数据中心里面的系统出现故障总是有其理由的,而掌权者们通常能找到背黑锅的对象——无论这个人是IT操作工作人员、原始设备制造商(OEM)厂商、系统集成商,还是第三方服务提供商。

犯事者常常会留下清晰可见的指纹,比如给部件贴错标签,或者没有更新流程。一些事件显然是由于多个有关方的疏忽大意。

Uptime Institute是一家专业组织,其成员包括来自多个行业的数据中心管理人员。近20年来,它一直在收集和研究数据中心事件方面的数据,现得出了这个结论:绝大多数问题是由外面的有关方引起的,比如承包商或供应商;比较少但仍相当多的一部分归咎于内部的IT工作人员。

自1994年以来,Uptime收集了关于大约5000起异常事件的数据;按它的定义,异常事件是指,某一个设备或基础架构部件没有按预计的方式正常运行。事件报告由Uptime的成员们主动上报。

Uptime表示,它在分析后发现,归因于操作人员的异常事件所占的百分比在2009年是34%,2010年是41%,去年是40%。

在2009年到2011年报告的事件中,50%至60%归咎于处理客户数据中心或为客户数据中心供应设备的第三方操作人员,比如制造商、供应商、厂方代表、安装人员和集成人员。

这一分析可能面临遭到各方的抨击,因为内部的IT操作人员或数据中心供应商都不容易背黑锅,除非故障事件影响了企业收入。

比如说,艾默生网络能源公司Liebert服务部门的电力技术支持主管Ahmad Moshiri表示,在一些情况下,供应商的确因他们觉得是内部IT操作人员疏忽引起的问题而背黑锅。

他说:“供应商处在敏感的位置。它不想让客户(数据中心管理人员)处于难堪的境地。这非常棘手。”

Uptime表示,它还发现,在最糟糕的异常事件中——导致系统或数据中心停运的事件,绝大多数(60%)归因于内部的IT操作人员。

Uptime的研究和教育执行负责人Hank Seader表示,那些结果同样可能具有误导性。Seader说:“扔香蕉皮的常常是设计、制造和安装方面的流程,而在香蕉皮上摔倒的是操作人员。”

David Filas是总部设在密歇根州诺维的医疗服务机构Trinity Health的数据中心工程师,他补充说:“工程师、架构师和安装承包商的设计和行动对数据中心的操作可能会有潜伏的影响,哪怕数据中心兴建后已过了很久。外部因素完全如同内部因素一样很容易事关数据中心的成败。”

他特别指出,Trinity Health挨过了一次数据中心停运事件;之所以会出现那次停运事件,是由于早几年在兴建数据中心,紧急断电旁路电路并没有严格按规格来制造。

Filas表示,IT部门更依赖承包商来制造或更新数据中心,这加大了出现问题的风险。

他表示,比如说,电气承包商可能不了解某个数据中心的具体要求。他补充说:“有人经常问我们,我们为什么要为数据中心机架提供冗余电源。”

艾默生公司的Moshiri提到流程和程序方面的问题是导致数据中心出现问题的主要根源,如果涉及多家供应商、需要高度协调时更是如此。