数据中心灾难恢复检查清单

当你在制定数据中心灾难恢复方案的时候,你的目标是为了保护公司在信息技术、通信和人员方面的投入。一旦遭到破坏,你的数据中心要么是完全不受影响要么就可能遭到彻底的毁坏。

灾难恢复方案应该是灵活的、可扩展的,这样才能应对各种破坏场景。本文将提供数据中心的检查清单,并给出在灾难之后可以采取哪些行动的建议。这份清单将使得灾难恢复变得更为简单。当你在检查一次破坏性事件对你的数据中心产生的后果时,请务必参考这份数据中心的检查清单,或者是针对你自己的要求对它进行修改。当你完成了对于破坏情形的初步评估,并且对你的员工所处的位置满意之后,再开始根据灾难恢复方案采取行动。

制定数据中心灾难恢复计划时的若干假定

一项数据中心灾难恢复计划仅仅关注于数据中心的设施和基础设备,比如它的物理位置、建设、安全、能源、环境系统以及它的工作人员。你不光要考虑到数据中心运作的部分,也要考虑到支持它工作的人。这意味着在制定DR方案时,要满足以下条件:

—数据中心技术和管理人员,包括所有的班次

—数据中心的建筑(比如,物理的基础设施、建筑物、出入口位置、提升地板的区域)

—建筑的位置(比如,进入路线、离高速公路、火车线路、飞机场有多近,离燃油储存柜的距离)

—电能的产生(比如,商业用电、备用电源系统)

—电能保护(比如,接地及连结、避雷针、线路调节器、电涌抑制器)

—环境(比如,供暖、通风备以及空调)

—关键系统(比如,服务器、配电装置、VoIP系统、呼叫中心系统)

—网络设备(比如,电缆、连接器、路由器、铜和光纤线路、电缆架)

—安全(物理进入和信息安全)

—工作空间(比如,办公室、会议室、办公小隔间、家居、照明)

—防火(比如,火灾探测器、烟雾探测器、灭火器、FM200灭火系统)

—建筑楼层和墙体(耐火墙、提升地板)

—公共设施(比如,水、电、下水道、通信)

提升面对紧急情况时候的响应能力

作为灾备规划中及时响应的一部分要求,当我们在制定响应行动计划的时候,如果房屋是租赁的或者自有的,那么需要和房屋管理部门或者设施管理部门协商,除此之外,IT部门也需要沟通。制定好响应计划后,还需要复查一下和内部以及外部资源进行充分沟通以确保所有部门都万无一失。

在灾难恢复计划设计过程中需要考量的因素如下:

—和不同IT部门之间的关系,比如内部技术团队,应用团队和网络团队等。以确保所有日常使用数据中心设施的团队部门全部都在灾难响应流程里。

—与外部股票持有者之间的关系,比如厂商以及服务提供商。

—如果公司油气田办公室的话,和其他办公室之间的关系特需要考虑进去,因为他们也可能会是灾难恢复规划中的一部分。比如说要提高另外的数据中心机房等。

—和架构相关的文档,比如说建设规划,楼面规划,系统视图,网络拓扑以及设备配置信息等。

在灾难响应的制定中需要考虑到以下的几个方面:

1.管理层对数据中心最有威胁的几个方面的认识,比如火灾、人为操作不当、断电、系统故障和安全问题。有可能管理层开始做的预想不符合实情,但需要在后面快速做出正确的改变。

2.管理层需要意识到数据中心里最容易出问题的环节,比如说,陈旧的备份电力保障系统。

3.之前数据中心故障的处理结果,比如,如何应对情况的以及我们从中学到了些什么。

4.管理层对数据中心宕机能接受的最长时间是多少。

5.行业现有的应对数据中心宕机的准则是怎样的。

6.从其他数据中心灾难恢复经验中学到的。

7.受训过的数据中心紧急响应团队处理突发事件的能力。

8.主数据中心和备用数据中心服务提供商的紧急响应能力以及两个数据本身的紧急响应能力。如果之前使用过,那么当时用的时候遇到过问题吗?此外还需要了解服务的成本以及服务合同目前的情况。

原文出处:http://www.searchstorage.com.cn/showcontent.aspx?aid=50086