许多企业制定的业务连贯性管理(BCM)和灾难恢复计划都不能达到目的,9.11的灭顶之灾让有些企业永远都无法翻身。为此,Gartner提供了重要的指导方针和建议?D建立一个灾难恢复分类机制。
战略规划设想
企业应该首先定义企业对于应用服务可用性和灾难恢复的要求。在早期忽视这些要求通常会导致解决方案不能满足企业的需求,并且最终将要求企业对结构进行重大调整,以改善服务。
Gartner建议建立一个分类机制,对受支持的服务级和相关费用进行分类。它们能促使企业在开发和应用结构上投入精力和资金。然后,管理者将针对某个特定的服务类型建立一个业务案例。从灾难恢复角度看,企业应该在进行业务影响分析和制定恢复战略这一阶段建立该案例。服务级定义应包括预定的正常运行时间及其可用性百分比、恢复时间和恢复点目标(RPO)。“可用性”是指服务的日常可用性。“恢复”是指从企业一个影响业务流程的重大事件(如硬件故障或自然灾难)中恢复运转的时间。在这个例子中,“1 类应用服务”是指制定了实时企业(RTE)战略的关键服务,如果没有这些服务,企业将遭受不可挽回的损失。灾难恢复结构可能会在两个物理站点上实施。
行动方案
建立一个服务级分类系统,确定有关开发、基础设施和操作结构要求。最有效的流程是重复的流程。
Gartner 业务连贯性成熟度模式基于这样一个原则,即企业的业务连贯性计划的质量将直接与业务连贯性管理(BCM)流程和用来创建和维护该计划的实践的质量和成熟度有关。Gartner 业务连贯性成熟度模式基于一个分段结构,其中包括5个发展或成熟级,后面一级以前面一级为基础。
成熟度模式的原则是企业制定和采用新的流程和实践,并从中了解、优化和移向下一个成熟级。各步骤之间存在一个逻辑顺序,企业不能跳过某个成熟级,虽然企业经历各个阶段的速度因其投入、文化和背景的不同而不同。该模式是一个有用的诊断工具。
虽然企业应该尽力改善其业务连贯性流程和实践,但它们不一定要把服务级分类中的第五级设定为目标。要想达到令股东满意的风险应对水平,企业不一定需要上升至此,但三级是企业可以接受的最低级别。
高可用性技术
恢复时间目标(RTO)定义了在某个事件发生后,系统的信息系统、服务和流程迅速恢复运行所需的时间,其中包括应用和数据的恢复以及接入这些应用的最终用户的恢复。
RPO标志着在哪个时间点以内,企业还可以利用备份、日志或交易记录来恢复数据。它定义了可以接受的数据丢失程度。许多企业认为,如果发生灾难,它们将利用最后的备份进行恢复,但这一时间可能会长达24小时。
在费用和RPO之间存在大量的平衡点。企业通过脱机备份并移动数据和应用以及签订合同获取其他处理能力(如热站恢复服务、辅助数据中心和快速装运计划)就可以实现24~72小时(或者72小时以上)的标准RPO。应用和数据的恢复由以下流程组成:将磁带传送至恢复设施,装载磁带,重新启动应用和用户访问。所有高可用性方法都需要一个与生产系统连接的备份数据中心(企业内部拥有或者由服务提供商提供)。Gartner描述了不同的高可用性方法之间的相对费用差异。
可以缩短RTO 和RPO 的技术包括:
- 电子仓库可以支持企业将每天的备份通过电子方式传送到恢复设施上,在灾难发生时就可以缩短传送的时间。通常,生产服务器是通过网络与恢复设施上的磁带连接的,但有时也需要中间主机。此外,根据备份数据的数量,可能还需要按需网络服务(短期内的高带宽)或直接网络连接。电子仓库能缩短RTO,但它不影响RPO。
- 电子日志通过电子方式持续或按预定间隔时间传送自上次备份以来出现的数据库或文件系统变化。这通常是通过专用网络实现的。该网络将日志传送至恢复设施上的一个专用服务器,然后再传送至磁带。电子日志能缩短RPO,因为数据在中断事故发生以后很快就能恢复。它还能缩短将日志传送到恢复设施上所需的时间,从而缩短了RTO。
- 影化能创建数据库或文件系统的复制品,通常采取的手段是持续捕捉变化并将这些变化应用于恢复站点。影化是一个异步流程,因此需要的网络带宽比同步镜像的少,而且比日志所需的带宽大或者与之持平,但它需要的硬件容量要大一些,因为它需要不断地应用功能。RTO被大幅缩短了(通常在1~8小时内,取决于适用日志的滞后时间),而RPO则与最后一次接收和应用日志的时间接近。
- 镜像能创建数据库或文件系统的复制品,采取的手段是将灾难恢复设施上的变化与主站点上的变化前后应用或同步应用。因此,RTO将被缩短,从20分钟到几个小时不等。而RPO也被缩短到只有未完成的工作丢失。带宽太小或延误过长将削弱生产系统的性能。备份站点上还需要使用专用硬件(如服务器或磁盘子系统,或者两种都需要)。
- 几个物理站点之间的负载平衡对于非事务型应用而言很常见。通常,事务型应用都放置在一个站点上,而热备份则放置在其它地方,这降低了恢复的复杂性,而且为冲突的解决提供了机会。
- 热备份系统,如广域群集器,能提供时间最快的可恢复性,通常从几分钟到一小时不等,因为恢复系统配备了影化或镜像功能以及热备份应用环境,由运行应用所需的能力构成。此外,自动化灾难检测和应用恢复能力是减少宕机时间的必要条件。如果发生了灾难性故障或站点灾难,那么热备份系统将自动检测故障并开始恢复流程,包括重新启动应用和驱动网络接入。
根据使用的应用、平台和高可用性方法的不同,企业在24小时以内成功恢复运行需要支出高额要想选择正确的技术和支出水平,企业必需了解业务流程宕机带来的直接和间接费用,这通常是通过业务影响分析计算得出的。了解每个业务流程的可以接受的技术支持限制有助于企业缩小恢复方案的选择范围。
行动方案
虽然快速RTE 恢复费用昂贵,但其它方案?D在3或4天内恢复?D?D可能会威胁到企业的生存。企业应利用商务影响分析来帮助评估恢复投资回报。
对于1类应用服务和2类应用服务(RTO 和RPO 较短),可以使用多站点结构。通常,新的RTE应用服务开始时采用的是单一站点结构,并随着风险的加大而转向多个站点。多站点的应用结构设计较为复杂(例如设计中必须包含负载平衡、数据库分区、数据库复制和站点同步化等内容)。对于非事务处理型应用而言,多个站点可同时运行,将用户与最近的站点或使用量最小的站点连接。
为了简化复杂性,大多数事务处理型应用都将数据库或磁盘复制在另一个站点上,但在灾难没有发生时,备用数据库是空闲的。转换至备用站点通常需要15~30分钟。有些企业倾向于将数据库分区,在站点之间分摊事务处理负载,并且将用于决策支持和报告的数据综合在一起。这将降低站点中断造成的影响,使它只能影响到一部分用户。其他企业则比较倾向于更加复杂的结构,在这些结构中,站点之间具有双向复制能力,能保持单一数据库影像。
所有应用服务都需要在灾难恢复战略中包含端-端数据备份和脱机存储。通常,灾难恢复结构将实施指定时间复制,以驱动同步备份和恢复(涉及许多系统)。3类应用服务和4类应用服务通常通过备用站点上的磁带进行恢复。
外包决策
在定义了灾难恢复服务级以后,企业应评估灾难恢复战略:
- 1 类服务面向关键的应用,其RTO和RPO从几分钟到1小时或2小时不等。
- 2 类服务提供的RPO为4小时,RTO为1天以内?D?D能满足那些希望将数据影化到恢复设施上的企业的要求。
- 3 类服务提供标准磁带恢复??这些服务通常是外包的。
- 4 类服务提供的恢复时间较长,可以使企业通过签订快速装运服务合同来降低费用。
业务连贯性流程中的很多功都不能外包,但许多设备和劳动力可以外包。