谨记于心：IT灾难恢复计划的两条军规-DOIT-数据产业媒体与服务平台

对于灾难恢复计划首要的是风险评估，但是理解如果不理解风险的影响，单单只是明白风险本身，这也没什么意义。想要发展一个IT灾难恢复计划，在考虑如何构成最高效的恢复策略时，两个重要的问题需谨记于心。

1、哪些灾难恢复方案在我们的IT环境中切实可行?

2、已有的方案如何影响现有IT环境支撑的业务?

这些问题能够反映评估IT环境风险和判断风险结果需要什么因素，还能体现它对组织的效果。

风险到底是什么?

从IT的角度我们可以用多种方法定义什么构成了风险?最普及的观点是“暴露在了已知的威胁存在中，有发生的可能。”如果我们想好好把工作完成，就不要把专业术语挂在嘴边，而是简洁地解释好。比如说，危险暴露可能是因为冗余服务器硬件缺乏，威胁就是经常会硬件故障，就这就构成了一个风险。

评价风险

在灾难恢复过程应该很早就查处风险，同样重要的一点是：不要再风险发现了才做灾难恢复策略。

检查硬盘故障很简单，但是作为风险来说就不算事儿，因为有数据备份，磁盘故障可以很快解决。真理是风险存在，但是控制手段要就位，以便减少影响。

最佳实践是先评估每个风险，分析其对业务的影响，然后评价现有的控制手段能否在坏影响发生的时候解决问题。

也就是说风险无论如何都会存在，但是得有控制手段解决。

尽管评价风险是重要的，但这是建立在有理有据的基础，需要评价它有多少可能发生。要承认计划外的断电确实可能会发生，而主观去想象更重要。

你需要寻找什么?

评估风险时要避免把所有可能的危险全都列举出来。而是着重于可能性较为合理的。由于“飞机撞数据中心”或者“太阳能烧了处理器”这种事情只能分类在范围更广的类别中。

把所有可能发生的风险因素列举好，然后考查现有的控制手段，确保它们适合。比如说，你不能因为有一个故障转移站点，就忽视飓风的风险，即使没发生你也得考虑如何最小化这种潜在的破坏。

IT环境可能要面对以下潜在威胁：

缺乏冗余数据中心关键架构。包括UPS或者配电路径，没有后备发电机，有单点故障的冷却系统或者不完善的防火等等。

地理和气候相关的威胁。无论数据中心和IT架构的冗余程度如何，整个设施如果受到气候影响，还是会发生单点故障。

缺乏冗余IT架构部件或存在单点故障。这部分范围较广，从高级部件比如单独网络连接和关键应用服务器，到粒状的单独电源服务器。

物理和逻辑安全不足。不锁门，或者安保系统薄弱。

数据备份步骤不一致。通常是失败的备份、报告或者监控，缺乏站外的备份拷贝或者不一致的站外备份传输。

未定义恢复时间或者恢复点。这会导致对数据备份的错误评估，通常方法对了，但是结果错误。

不完善的变更管理步骤。缺乏合适的变更控制，通常会成为计划外断电或者人为数据丢失的起因。

配置文件材料缺乏。高度依赖IT人员是不能完全代替基础的配置文件。

缺乏灾难恢复计划。在灾难评估步骤，早就不断强调了这一点。

谨记于心：IT灾难恢复计划的两条军规