相信大家对"灾备演练"一词都不陌生,但是如何进行灾备演练?灾备演练的方法有哪些?很多人都难以做出清晰明确的回答。
通常,灾备系统建设完成后,面临的灾难不外乎数据级别、应用系统级别和灾备中心级别这三种。因此,所有的演练都是基于这三种级别中某一特定的场景而进行的,灾难场景不同,演练的技术过程也不相同。
一般而言,几乎所有的灾备系统的灾难恢复预案的最初版本都是根据建设目标假设的场景提出的,这样的灾难恢复预案的有效性以及流程是否能够符合企业IT部门应对灾难的需求,都需要企业IT部门对人员技术储备、各种资源协调、灾难恢复过程组织等等进行多次多场景的演练验证来确认。
演练的目的决定演练的方法,通常演练方法分为沙盘推演、模拟演练及实际业务接管演练三种。
沙盘推演
沙盘推演也叫"桌面演练",是在"模拟演练"前进行的,沙盘推演是对初始灾难恢复预案的一个理论验证,所有参加演练的人员和部门以会议方式,按照预先准备的灾难场景的灾难恢复预案,由参加演练的人员描述自己负责的任务模块的响应和处理过程。
沙盘推演可以检验灾难恢复预案和时间安排是否合理、人员组织是否有效、参演人员职责分工,技术储备及处理过程是否达到预案要求。推演的结果与恢复预案的差距,进而完善恢复预案。
模拟演练
模拟演练以沙盘推演结果(优化后的灾难恢复预案)为基础,模拟演练由IT部门与相关业务部门参加。它是对可能发生的灾难的处理过程的虚拟操作,通过模拟演练来验证灾难恢复预案是否可以达到预期的目标。
模拟演练启用实际的灾备系统来实现系统和业务恢复,采用模拟数据和模拟业务系统运行来验证演习预案。目前许多灾备技术可以完全提供不影响现有生产系统和容灾系统的灾备中心启动功能,因此可以在灾备中心随时获得真实的灾备系统启动环境并且可以在这个环境中施加应用系统的各个模块。演练的处理过程是高度接近真实灾难发生时的处理过程,通过演练可以检验灾备系统的可用性、灾难恢复预案的可行性以及增加参演人员对灾难处理过程的感知度,参演人员对整个灾难处理流程的熟悉程度和各自负责任务的熟练程度,增加灾难处理过程中各环节参加人员配合的默契程度。
通过模拟演练来进一步完善沙盘推演阶段形成的灾难恢复预案,发现演练流程中存在的问题,总结演练中指挥,控制,通信等的有效性,时间安排的合理性以及资源调用,调配是否满足演练的需求。
模拟演练是一种对现有生产环境没有影响的演练方式,但是可以实现灾难恢复预案的比较完整的验证。
实际业务接管演练
实际业务接管演练与灾难发生时处理的结果一样,需要灾备中心真正接替生产运行一段时间。实际业务接管演练可以最大限度的检验灾备系统的灾难恢复能力和灾难恢复预案。验证灾备中心在灾难发生时的实际业务处理能力。在实际业务接管演练中,数据回切是一个比较复杂的环节。对于数据回切,有以下两种方式处理:
1) 灾备中心运行阶段验证正确之后,放弃验证的数据,直接启动生产中心系统恢复生产。
2) 将灾备中心运行的数据,以增量方式恢复到生产中心,在生产中心启动生产。这种方式具有较大风险,如果设定的灾难场景是大型灾难(如地震等),数据的回切则可能以全量方式进行。
绝大多数企业的灾备系统演练都需要按照目标和风险度来设计。灾备演练的三种方法,以递进的方式从纸面理论到实际操作,从业务模拟到业务实际参与等不同层面,不同深度来验证已建成灾备系统的可用性,有效性,通过演练结果来修正、补充、完善灾备恢复预案并为灾备系统的升级建设提供理论依据及数据指标,从而使企业在信息系统灾备建设中有据可依,从而保证建成的灾备系统能充分实现建设的目的、达到建设的目标。
达到灾备演练的目标和完善预案是灾备演练的设计宗旨,对企业而言,切忌贪大造成不必要的生产风险和浪费。