RTO,制定高效灾难恢复计划的驱动力

灾难是指导致一种或更多生产性资源不可用的事件,这些资源可能是员工、电脑、通讯、基础设施等等。那么,为什么需要尽快恢复企业的业务呢?从财务的角度来看,当灾难发生时,收入停止了,很多日常支出却还在继续(设备费用、工资等),同时还产生了许多非经常费用(如临时办公室费用、热站费用、设备更换费用等)。这些问题将导致企业的资产状况变糟(对非营利性机构来说就是净资产状况)。

安德鲁飓风发生时,我正好住在迈阿密。我亲眼看到,整个城市一半的企业在飓风过后倒闭。生存下来的另一半企业中,又有一半由于糟糕的财务状况而在3年内倒闭。

企业应该什么时候时间开始制定灾难恢复计划呢?答案是,当一定数量的资产损失会给企业带来严重的损失时。通常,企业的CEO和CFO会知道这个问题的答案。如果企业要做一个现实、有效的恢复计划,这个答案是必需的。

获得关键性的资产信息之后,就可以进行更具权威性的业务影响分析(BIA)。进行到BIA这一步时,需要明确当企业失去某一特定业务单元还能够存活多久,可以将突发性资产损失数作为标准。调查者的职责是在合理范围内尽可能地扩大RTO(灾难恢复时间目标)的范围,而被调查者的工作是根据他们对业务和业务单元的认知来明确该范围。在明确了RTO之后,企业已经在制订灾难恢复计划方面成功了一半。

对于以盈利为目标的企业来说,失去生产能力的时间越长,损失就越大。与此相对应的是,期望业务恢复地越快,恢复方案就越昂贵。

每个企业有着通用的结构和流程,一些资源被投入到企业中,企业的内部资源(如员工、设施、设备、IT组件等)被用于将这些投入转换为生产组件然后产出,并提供给客户。当灾难发生时,一个或多个生产组件将失效,生产过程无法进行,也就不再有产出。RTO是指系统恢复所需要的时间,从而使企业可以继续为客户提供产品或服务。为了达到这一目的,受损的生产组件必须修复或者更换。

为了完成恢复,企业需要制定灾难恢复计划。该计划需要提高我们的系统、业务恢复能力,使我们可以在RTO要求的时间内完成恢复。在这方面,那些制定灾难恢复计划的人(一般是管理着IT和通讯资源的人)似乎有正确的方法。当你阅读一个灾难恢复计划时,你会注意到每一个恢复步骤都围绕在恢复一个生产组件上(如恢复AS400、恢复主机、恢复路由器等等)。

大多数情况下,业务恢复计划被分为很多子计划(每个部门一个),并集中于恢复某一个业务单元。这些步骤被称为“临时变通计划”,即很多企业尝试在不使用计算机的情况下恢复某些生产。但是我在美国各地制定恢复计划时发现,人工(无计算机)生产流程已经落伍了。

20世纪90年代,我当时任职的公司的办公室发生了火灾。通过将员工转移到附近一个汽车旅馆,租用几间房间,他们就能够恢复业务运营了——不需要任何计算机!

几年以后,那个公司已经不可能通过这种方式来进行业务恢复,因为他们的业务流程已经全部计算机化,没有人记得如何手工操作这些流程。很大程度上这是从20世纪80年代至今的业务流程演变造成的。 这让我意识到,使用“临时变通计划”来恢复业务流程越来越无法完成业务恢复。

我所看到的“临时变通计划”都明确在业务中断后继续进行业务输入,从而当计算机系统恢复时可以恢复正常的业务流程。这种情况下,企业不仅会冒着临时流程产生的数据可能会丢失的风险,同时由于需要重新构造能够维持这种能力的环境而发生过多的费用。

从灾难恢复方法论的角度来看,企业应当将恢复资源,而不是恢复某一部门,作为目标来设计业务恢复流程,这样才能保证其能够通过修复或替换损坏的业务组件来满足设定的RTO。

当企业决定选择恢复资源时,首先应该组成恢复资源团队,并可以联合供应商提供替换资源或修复受损项目。企业可获得这些供应商的帮助,并对灾难情况有深入的了解(获得这部分信息才能让计划最好地发挥效用)。

在关于业务连续性的文章中,我很少看到对步骤的评论或讨论。步骤是任何计划的核心,但却是业务连续性规划权威专家们最少谈及的部分。

步骤应该被设定为在超出RTO之前将企业带回生产状态。如果一个“临时应对计划”步骤可以达到这个目标,那么它当然应该成为计划的一部分。然而,我碰到过的大多数“临时应对计划”都没有帮助企业向恢复推进。真正帮助企业在RTO之前获得恢复的步骤,是关于企业供应链恢复的。

对于生产流程的每一项关键资源都应该有一个辅助恢复步骤,和一个受过训练来执行该步骤的小组。为了有效满足企业的RTO,这些步骤应该设置如下:

Ø 每一个设施都应该有一个独立的文件,包括一套独立的步骤和指挥人员;

Ø 为各小组指定流程执行中的责任;

Ø 流程的制定应该参考流程执行人员的意见;

Ø 流程中的任务应该以动词开头;

Ø 供应商和资源应该链接到流程中;

Ø 应急恢复流程应该放在恢复手册最前面,并且不会淹没在一些非关键信息中。

通过这种方法制订流程,灾难恢复和业务连续性计划将被整合到一个单一结构中。作为一个合作型恢复单元,团队可以以一个通行的方法来恢复生产的各种组件,该方法会将恢复变得更具有效性和时效性。RTO是高效恢复规划的驱动力,是判断恢复计划成败的标准。