2013您的数据中心能否幸免于大地震?

通过一个标准的联邦紧急事务管理署的报告显示,美国38个州均有中度地震危险性,60%的美国人口居住在地震风险为中度到高度的地区。当涉及到在多地震的国家建立数据中心,我们必须时刻提醒自己两件事情:

(1)该数据中心选址是否会受到地震影响

(2)地震可能明天就会发生

图1:美国地震风险地图

地震会在不发出任何警告的情况下使得数据中心运行失效,破坏数据中心的建筑及其里面的设备,甚至摧毁数据中心的整个线路。地震最可能的带来的数据中心运行失败是缘于地震破坏了数据中心安装的设备和建筑元素,如地板和天花板。

设备风险

即使是满足了当前设计建造规格的现代建筑,受到地震影响而导致一些设备无法正常运转也是常见。在大多数情况下,让建筑更具弹性,可以相当容易并相对便宜的减轻地震所带来的约束和影响。

图2:被毁的计算机和通信机架

比设施受损更厉害的社会影响

即使建筑物和设备抗震,其他相关设备线路线运行失败也是常见的。例如,许多关键设施依托暖通空调系统,采用蒸发冷却,利用社区供水。如果该供应中断,即使设备未收到损坏,也可能导致数天或数周不起作用。同样,对于商业方面也是一样的:大地震可能造成大面积地区临时停电,并可能导致因强烈震动带来的长期中断。例如,在南加利福尼亚的一次大地震中,大多数客户预计将断电超过一周和受损最严重的地区供水中断可能长达几天或几个星期。

设施备份可以降低因地震带来的中断操作的几率。但如果备份是位于靠近数据中心主站点的位置,其也可能因为同一地震而不起作用。两处越是靠近,就越有可能会因为同一原因而运行失效:他们更可能都受到强烈动摇;或两处的线路都可能受损;或同时发生火灾都需要被疏散。在设施备份的接近程度和风险之间明显需要进行权衡。更近的备份选址可以降低后勤备份成本,但这也意味着更大的共因失效的可能性。取决于两处数据中心的网站选址,“接近程度”可能为数百英里或更多。

图3:一次加利福尼亚地震强度分析

运用风险分析

其他造成运行故障的原因可以预见并进行补救。我们甚至可以进行工程风险问题分析。专家可以计算每次地震可能影响设施运行失败发生的概率,以及地震导致的设备无法正常运转的特定时长。同样的计算可以进行假设进行某些修正,如锚设备,增加应急发电机或现场水供应等等。通过估计和假设相关风险,可以更好地做出明智的决策,帮助进行有关的成本和效益的修复。并根据这些问题制定应急计划。

在加州的一个公用事业机构,其管理部门委托研究在一次地震中失去其所有数据中心的可能性。他们了解到,他们的大部分风险来自地震设备限制不足和地板。过了一段时间,他们修复了一些最危险的元素,并通过针对尚未解决的项目制定工作计划。修复决定是基于:

(1)临界性的风险因素

(2)修理的复杂性和费用

(3)建筑物或设备的预计使用寿命,例如,定于明年报废的则可能不会进行维修,管理可能会带来失败的风险

总之,一旦计算出哪种方案更便宜:地震前的修补程序或震后功能损失。通过计算其地震风险,企业可以判断哪些故障是最有可能的,哪些是最具成本效益的解决方案。然后,他们可以修复,并制定应急计划,以解决剩余的风险。底线是,如果您正在做的业务处在多地震的地区,务必要有地震风险管理知道自己的地震风险。