在导致数据中心故障的所有罪魁祸首中,技术问题所占比例很小,而人为错误却占据了大约70%的份额。由于某员工无意中把两条网线连接到一台错误的网络集线器上,整个校园网络陷入瘫痪状态;一名员工在进入一数据中心时由于路径不熟竟掉入"陷阱"而受伤;在数据中心的温控器设置被人从华氏温度改为摄氏温度后,系统由于过热而宕机。类似情况举不胜举,大多数据中心灾难并非缘自技术问题或自然灾害,而是人为失误。
根据数据中心性能研究机构纽约正常运行时间学会(UPTIMEINSTITUTE)所提供的数据,目前人为失误引发了大约70%的数据中心故障。该机构副总裁朱利安·库德里斯基(JulianKudritzki)表示,他们分析了4500起数据中心事故,其中包含400次完全宕机事件,最后得出如上结论。库德里斯基最近还发布了保持数据中心可持续性运营的一套指南。
库德里斯基称,该结论并不令人感到意外,"运营管理是你最大的弱点,但它也是避免宕机的最大机遇。好在你可以对数据中心人员进行重新教育。"
市场研究公司Pund-ITResearch分析师查尔斯·金(CharlesKing)表示,不管是因为大意,还是因为培训不够、最终用户干涉、资金紧张或简单的错误,人为失误是不可避免的。由于当今IT系统日益复杂,数据中心工作人员工作时间过长,一些本来可以避免的小故障却时有发生。而且随着企业越来越依赖于技术来达到自己的商业目标,这些错误已经变得更加危险,让企业付出的代价也越来越高。
错误连线致交换机超载
印第安纳医科大学安全分析师杰拉米·杰伊·鲍尔斯(JeramyJayBowers)表示,四年前由于一名IT员工误将两条网络线缆连接到一台下行集线器上,该大学数据中心交换机出现了超载现象。
这次事故发生时,鲍尔斯是该学校的系统工程师,该学校的IT部门有两处办公场所,一处在学校办公楼,另一处则在相邻的学校附属医院大楼上,鲍尔斯认为这本身就不是一种合理的网络设计方案。
两处办公场所通过一条光缆连接,在医院大楼的IT办公室中,该光缆被连接在一台12口交换机上。鲍尔斯表示,IT人员可以轻松的把该设备从校园网断开,然后通过墙上的插座将其连接到医院网络中。
有一天鲍尔斯在家休息时接到电话,得知学校服务器机房的交换机超载,导致它托管的所有服务都无法备访问。鲍尔斯表示,当数据包通过时,正常情况下交换机绿色指示灯会不断闪烁,但此时它们却基本是长亮状态。
鲍尔斯立即通过电话开始排障。他可以确定校园网络没有进行过任何修改。然后他想到了上面提到的光缆。他让同事拔下这条光缆,结果超载交换机恢复正常;再插上该光缆后,该交换机又超载。这说明问题出在该光缆的另一端,也就是附属医院大楼那边。
最后被查明的故障原因是,一名IT人员由于项目需要刚刚搬到医院IT办公室,由于需要连接更多设备到网络中,他无意中将两条来自校园网交换机的网线插到同一台新增的集线器上,这样就在网络中形成了一个环,数据在该环中不断被重复发送,最后导致校园网交换机的超载。
虽然这次事故并没有让学校IT部门改变现有不合理的网络设计,但至少现在IT部门知道一件事情:私自乱接网线的行为是不对的。通过这次事件鲍尔斯确信,相比技术错误,人为错误所带来的故障数量要更多一些。
节省35美元丢失所有数据
节省投资当然没错,但如果省了不该省的钱,可能最后的结果是付出更大的代价。在下面的例子中,一公司因为没有多花35美元再多购买一个备份磁带,导致所有数据丢失。
1999年,查尔斯·巴伯(CharlesBarber)在一家医疗器械公司担任技术支持经理,该公司生产一种基于服务器的独立设备,用来连接到跑步机来收集患者压力测试数据。该公司的客户之一是圣路易斯的一家小型医疗诊所,该诊所的行政助理同时也兼任着IT人员。
巴伯表示,这位行政助理能力很强,但她不是一名经过专业培训的IT人员。
在一个周五的晚上,她听到该设备的服务器发出奇怪的噪音,意识到硬盘出现了故障。周六她购买了一块新硬盘,在备份了原先数据资料后,在新硬盘上安装了微软的WindowsServer和SQLServer。巴伯曾经告诉过她如何配置服务器的步骤,因此这位行政助理按照该步骤顺利完成配置工作。
然后她在周日和周一开始恢复数据并对系统进行测试,测试一切正常,周一晚些时候开始正式投入使用,对一名患者进行了正式测试。
但周二早晨她致电巴伯称,她从备份磁带恢复到服务器上的所有数据信息丢失了。巴伯解释道,"她每天对整个系统进行了一次完全备份,不幸的是,当她去重新安装其备份时,看到的所有数据就是周一那位患者的数据。"
由于她只有一块备份磁带,而这块磁带已经被用来备份周一测试数据,但却忘记了这会清除此前的所有历史数据。巴伯表示,一块磁带的价格约为35美元,真希望她的老板多花点钱让她多买一块磁带,但现在结果是丢失了三个月的数据。
存在两年之久的"洞"
有时候数据中心中的某些事故注定早晚会发生,但每天在那儿工作的人却又对它熟视无睹,而新来的人却往往能立刻发现它们。
艾德·古尔德(EdGould)是一名退休的IT从业人员,在20世纪80年代曾就职于芝加哥一家安全公司担任系统程序员。他入职一个月后,发现了公司数据中心存在的一个明显的威胁。
在该公司,程序员一般会把磁带交给数据中心运营人员,然后由后者安装到机房中。有一天运营人员工作比较繁忙,无法安装古尔德交给他们的磁带,因此古尔德决定自己去安装。他刚进入数据中心没走几步,就掉到一个约两英寸半深、比萨饼大小的坑中,随后运营人员把他拉起来。他问运营人员为什么会在地板上有这样一个洞。运营人员表示,这个洞两年前就有了,他们自己已经习惯了它的存在,因为熟知它的位置所以不会掉下去。
后来古尔德把此事汇报给一位副总,然后到医院检查了一下身体。这位副总也是第一次知道该"洞"的存在,并在几天内对其进行了修复。
令古尔德感到惊讶的是,数据中心内的这个威胁竟然一直存在了如此长时间,而在这儿工作的人员却对其熟视无睹,只是选择绕着它走。
类似人祸行为
数据中心中由人为错误引发的事故举不胜举,在国外知名IT网站《ComputerWorld》的SharkTank专栏中,IT管理者们已经发表了数百个此类案例。
美国阿瑞桑那州一家空军基地的工程师约翰·艾尔(JohnEyre)表示,20世界80年代中期,该基地需要为新添置的王安电脑安装新线缆,每台计算机需要通过同轴电缆连接到终端,厂商推荐使用两英寸管道来传输线缆。
艾尔认为该管道不足以容纳所使用线缆,但由于它是王安电脑公司所推荐的,艾尔的领导还是决定按厂商建议来做。
当所有线缆被铺设好后管理者发现,在每处使用该管道传输线缆的地方,线缆都已经裸露出铜芯,无法继续使用。整个线路安装工作不得不重新进行,导致整个工期延迟了9个月之久。
艾尔表示,由此事件得到一个教训是,欲速则不达,一味求快反而引发重重问题。
另外一个例子是,在某数据中心,由于有人将温控器的温度单位由华氏温标改成了摄氏温标,因此在64摄氏温度下,服务器机房简直就变成了一个蒸笼。
如何减少人为失误?
那么对于数据中心灾难来说,什么才是更危险的因素?是系统还是配置和维护系统的人?正常运行时间学会的库德里斯基表示,答案是两者都必须重视。
他补充道,要想拥有一个运营良好的数据中心,必须重视运行系统或与系统交互的人。如果管理者能投入时间在员工水平、培训、维护和运营等方面作出谨慎决策,往往能够避免多数灾难,从而获得最大在线时间。
Pund-IT的查尔斯·金警告称,对于导致数据中心停摆的人为因素,管理者不应简单采取快速修补的方式。高效的人员管理需要深思熟虑后才能得出正确的策略。
他表示,解决这些人为因素需要系统性的策略和方案,但培训计划通常是局部和面向任务的做法。
查尔斯·金表示,尽管多数员工非常了解他们所使用的技术,但很少有人意识到数据中心本身是一个高度复杂和相关关联的系统。如果培训计划和训练能够强调对数据中心管理的整体性,可能有助于解决这类问题。