面对自然灾害的灾难恢复:来自第一线的DR故事

自然灾害是企业IT管理者与CIO们面对的大麻烦,大规模的飓风,地震,火灾,泥石流和其它不可抗力的频繁发生已经让全世界的很多家机构经受了最困难的生存考验。

很多用户也遇到了挑战,我们总结了他们的教训,以帮助其它用户有朝一日遇到相似的困难时,避免遭受重大损失。以下是来自灾难恢复一线的一些明智之举,由一些从灾难中成功逃脱的存储专家提供。


确保监控的正常

电力监测已经帮助圣路易斯华盛顿大学医学院的技术服务经理Kelly Carpenter更快地找到了雷击造成停电的源头。

两年前,雷电袭击了Carpenter所在的附近地区,烧坏了医学院和学院数据中心与电网之间连接的电缆。当他看见建筑物的墙上有一个5英尺宽的熏黑的标记时,他意识到已经发生了什么。

尽管在电网连接甫一失灵时,这家学院的两个UPS系统就自动切换,但是Carpenter还是被迫切断了数据中心一些设备的电力供应,Carpenter负责的数据中心安装有EMC公司的CLARiiON设备,HDS硬件和刀片服务器。

Carpenter说,他的经验就是完全有必要小心周密地监控学校系统的供电情况,防止电力异常。他说:“通过监测,我们会更快地发现雷击(造成了这一断电事故)。”

目前,他正在他的数据中心的“以太网”连接上着手部署一系列的传感器,Carpenter说,完成这个部署后,当因热或雷电产生突然的电力波动时,他就会收到警报。这些传感器通过惠普的OpenView软件或OpenNMS网络管理技术进行管理。

通过托管进行管理

在美国新奥尔良的Orleans Parish School Board,卡特里娜(Katrina)飓风促使他们重新考虑这家机构的灾难恢复计划。

这家机构IT部门的执行理事Peggy Villars Abadie 解释说:“我们不仅遇到了破坏性很大的暴风雨,而且我们的电网因此毁坏了几个月。”“即使你有备用的发电机,你也无法使用,因为这个城市到处都是水。”

这次可怕的破坏使这家机构重新重视它的灾难恢复计划,目前这家机构在美国路易斯安那州的巴吞鲁日,使用它的辅助站点管理学生数据。“[卡特里娜飓风期间]唯一能确定的事情就是在这座城市里没有一样完好无损的东西,因为整个城市都被破坏了。”

这家机构的其它主要系统设备也已经被移出受灾现场:Website 和 ERP系统目前由美国缅因州的Tyler Technologies的主机管理。Villars Abadie说:“我们已经尽可能地将我们的系统迁移到ASP模式下。”遗留的财务系统目前由Oracle公司主机进行管理。

卡特里娜飓风还破坏了这家机构的电子邮件服务器,曾经使通讯变得相当困难。因此,Villars Abadie现在已经选择了托管电子邮件解决方案。“如果我们的Outlook服务器出了故障,电子邮件就由美国德克萨斯州的MessageOne公司的主机管理。

Villars Abadie还在着手完成由IBM刀片式存储设备组成的SAN,这将主要用于存储学生的个人电子邮件帐户。备份是这项计划中的主要元素。“Iron Mountain 已经告诉我们,如果遇到大风暴的袭击,他们会将这些磁带拿到孟斐斯。”

改变SAN的部署

近几年重新评估自身存储体系结构的另一家机构是位于德克萨斯州的Beeville Independent School District。

尽管Beeville避开了卡特里娜(Katrina)和Rita带来的破坏,但是该机构的负责人还是认识到了未来他们可能要面对的危机。在Rita飓风(2005年9月,紧随飓风卡特里娜(Katrina)之后)过后的几个月德克萨斯州要求学校更新他们的灾难恢复计划。Beeville的副主管Nancy Jones说:“从人类天性的角度去考虑,人们往往会想‘这里不会再发生了’。”“但是我们已经看见发生在其它校区的一切,我们不想卷入这样的危机。”

对于Beeville学校的IT经理Lawrence Garcia来说,这就意味着要对校区的存储系统进行全面的检查,从USB驱动器和直接附加HP磁带驱动器转换成更现代的Xiotech SAN。他说:“我们需要找到一种方法,它可以为我们的教师和管理人员安全地存储我们的数据,快速地执行恢复,防止延迟。”“过去,我们可能需要花费一个小时或更长的时间才能找到需要的文件,但是现在用户能够飞快地访问他们的信息。”

安全是这个校区要考虑的关键因素。尽管距离海岸有60英里,但是这所学校还是处于容易遭受飓风和暴风雨袭击的范围之内。Garcia解释说:“我们以几种不同的方式保存我们的数据,这样的话,即使一个服务器被淹了,我们的数据也不会丢失,因为我们不只做了一份拷贝。

因此,目前将学生的数据从校区的行政办公室内的服务器复制到4.8TB的Xiotech Magnitude-3D系统上,Xiotech Magnitude-3D系统在3英里外的数据中心内。然后再将这些数据备份到磁带,将磁带保存在站点外的某个秘密位置。

Beeville学校的Garcia解释说,SAN项目的销售商有很多。他说:“我们考查了戴尔和EMC,但是他们的解决方案没有打动我,我不认为他们的产品在可管理性方面比Xiotech的更好。”

以人为本

据位于佛罗里达的金融机构Market Street Mortgage Clearwater 的CIO Charlie Pelton说,管理危机中的服务器与存储只是有效的灾难恢复计划的一个元素。

这位负责人的公司位于遭暴风雨破坏的佛罗里达州的西部,他说在卡特里娜(Katrina)飓风后的几周,他也不得不重新考虑他的灾难恢复计划。他说:“卡特里娜(Katrina)飓风后,我们与一些人交谈,询问他们他们最大的问题是什么。”从中发现员工工作的一些地方是用户谈起的最大的问题。

Pelton说:“我们与第三方签署了协议,购买了可容纳48人的活动房屋,可以移动到我们需要的任何地方”,应付灾难情况的IT团队可以使用它。“如果他们工作的位置不能用了,他们需要其它可以工作的地方??我们可以将这个活动房屋放在奥兰多,杰克逊维尔或盖恩斯维尔。

在硬件方面,五年前,Market Street Mortgage就已经为它的Clearwater数据中心建立了“热站”。他说:“它是一个完全复制的站点,位于海平面上50英尺的中枢部位。”

这家金融机构使用Veritas 和 Neverfail软件将它的SAN镜像到100英里外的“热站”。Pelton说:“这个热站就是为此而建的。”“这里没有任何窗户,在一个独立的电网上。”

这位在2005年经历了15次极其令人头疼的飓风的CIO说,谢天谢地,2007年平静多了。“现在是飓风频繁发生的季节—-面对迪安(Dean)飓风,我们非常走运地逃过一劫,但现在在海岸上还经常出现一些小的热带风浪。”