破除自动化灾难恢复的4个谎言

美国在飓风“桑迪”袭击之后的几个月里,灾难恢复 (DR) 规划的方方面面都被媒体广泛报道,同时也成为IT管理员们讨论的中心话题。每个企业都意识到自己应该做好DR规划,以应对实际自然灾难和如同自然灾难一样可导致IT崩溃的人为错误、恶意行为和设备故障等。灾难恢复、数据保护,以及相关的辅助工作已经上升为IT管理员全年全天候都必须完成的关键任务。事实上,数据中心经理现在已经明白不能只考虑保护和备份数据,而需要考虑保护业务所依赖的全部IT服务。而难点在于如何在当今日益复杂的环境中成功实施灾难恢复,因为传统的数据保护方法根本无法应对企业大规模的数据增长。

任何数据中心的灾难恢复保单

当今数据中心的复杂性使时间变得紧迫,而且这种趋势越来越严重。灾难恢复是数据中心内最耗时的处理,通常被推至日常IT优先级列表的底部。由于数据中心经理需要处理越来越多的最终用户请求和其他日常项目,可以理解,他们就不会侧重于不那么迫切的预防过程。然而,正如我们都有家庭保单来保护我们以防不测一样,数据中心必须用灾难恢复计划来起到相同的作用。灾难恢复是IT保险计划,它会保护数据、应用程序、系统和基础架构,这些因素构成了运作业务的关键IT服务。

简而言之,灾难恢复是业务持续运作的关键。如果数据中心发生故障,则可能对公司造成数百万美元的损失。这种损失表现为生产力下降、公司信誉受损和其他影响。大多数公司声称自己就无法承受持续四个多以上的停机时间,因为这会招致惨重的损失。IT管理员太清楚这种压力了,因此在发生中断时,他们会争分夺秒地执行一系列必要的步骤来恢复正常运行,而这些步骤既复杂又紧迫。

那么,IT部门领导该如何在发生灾难后缓解压力,并更快地恢复业务运营呢?数据中心经理该如何确保其IT保险计划已足够保障呢?答案就是正确地规划、测试并实施专为当今复杂的数据密集型环境而设计的灾难恢复计划和解决方案。过去,太多的灾难恢复计划因没有正确执行而失败,传统的数据保护技术无法扩展到保护IT服务,并且这些计划也没有经过全面测试。自动化灾难恢复则可以解决传统数据保护技术的缺陷。使用化灾难恢复后,公司可以通过最少的手动操作在几分钟内恢复系统,而不是几小时或几天。

消除灾难恢复自动化的谎言

自动化灾难恢复可以节省时间并减少代价高昂的停机时间,那么,为什么目前没有更多的数据中心采用它呢?答案很简单:误解。解决缺乏了解的最好方法是提供信息,所以让我们一起了解下引起对自动化灾难恢复不信任的四个最常见的谎言:

1. 谎言:无法为具体环境定制自动化灾难恢复。IT 管理员认为自动化灾难恢复解决方案无法处理当今大多数数据中心所使用的不同种类的硬件或物理服务器及虚拟服务器。在许多情况下,IT 管理员必须争分夺秒地快速恢复系统,并且需要利用任何现成的物理或虚拟系统。

事实:有些自动化灾难恢复解决方案可以在非同类硬件之间,以及从物理到虚拟、虚拟到虚拟,或虚拟到物理系统进行故障切换和故障回复,从而允许在任何环境中快速恢复。无论服务器、硬件或连接的类型是什么,自动化灾难恢复都可以处理异构环境中的复制和恢复操作。

2. 谎言:自动化灾难恢复不允许进行完全测试。有一种观点认为自动化灾难恢复缺少测试端到端恢复情况的机制。有些解决方案只能够测试某一特定数据集、应用程序或部分过程的恢复情况。如果不进行完全测试,则IT经理就会对发生实际紧急情况时的最终灾难系统信心不足。

事实:对整个环境进行完全深入的测试至关重要,并且必须执行(至少一季度进行一次),才能确保所有过程正常工作。在选择自动化灾难恢复解决方案时,IT 经理必须详细检查测试步骤,以确保自己可以运行完全的测试,且不引起显著的停机时间。

3. 谎言:自动化灾难恢复需要使用多个源来恢复数据。 有些灾难恢复自动化解决方案只能恢复系统上的部分数据,并且需要依靠其他可能更慢的备份应用程序来进行完全恢复。例如,有人担心如果故障发生了四个小时,自动化灾难恢复解决方案只能恢复两小时的丢失数据。其余数据则需要从辅助备份源中获取。这类解决方案大大阻碍了恢复时间目标。

事实:真正的自动化灾难恢复系统会恢复到故障的原点。自动化灾难恢复技术与基于磁盘的不间断数据保护及快照技术相集成,允许公司在一个完整的过程中完全恢复。

4. 谎言:自动化灾难恢复一次只能恢复一个系统。IT 管理员认为自动化灾难恢复解决方案一次只能恢复一个系统或应用程序,这对于跨越多个系统、应用程序和服务的中断并不足够。这种担心源于某些声称是自动化灾难恢复解决方案,却只能在恢复过程中一次恢复一台服务器的产品。如果遇到影响整个数据中心的故障,公司只得运行大量耗时的单系统恢复。

事实:当今的高级自动化灾难恢复解决方案允许在几分钟内将多台计算机(一次最多五个系统)和全部IT服务恢复为全面运作状态。这种面向服务的恢复方法侧重于构成关键数据中心服务的系统、应用程序和数据的集成,以便消除或显著减少停机时间。

自动化灾难恢复是公司在系统崩溃时消除代价高昂的停机时间并抑制生产力下降的保险计划。IT 管理员可以移除数据中心内传统数据保护解决方案的限制和故障,但是许多管理员仍坚信这些关于自动化灾难恢复的常见谎言。通过评估市面上的所有可用解决方案,IT 经理可以克服对自动化的不信任。他们会发现,当今最佳的自动化灾难恢复系统比自己现在认为的要强大、可靠得多。

作者简介:

Ralph Wynn 现任美国飞康软件公司高级产品营销经理。作为一名存储专家,他在产品管理、营销、支持和部署等领域拥有超过 14 年的丰富经验。加盟飞康之前,Ralph 先后在 Bocada、Synscort 和赛门铁克 (Symantec) 等公司供职。