专家谈容灾:容灾建设,你真的准备好了吗?

随着信息化在社会生活中逐渐占据主角,人们的生活逐渐被日益渗透的信息控制所包围。而以911为显著特征的国际安全形势的变化以及各类大型或突发灾难的不期而遇,使人们看到了信息集中化在带来入社会进步和改变生活的同时,也带来了高度的风险集中。业务的核心载体?信息系统在各类风险的威胁下,其健壮性和抗击风险的能力直接决定了企业甚至于行业的生存能力,成为服务水准的基本保障。

这样就引伸出了近来频频见诸于报端和各类媒体的一个热门词汇—容灾系统的建设。建设容灾系统就是指利用各种技术和管理手段将灾难的影响化解,它的主要表现形式为两个方面:一是保证企业数据的安全;二是保证业务的连续性。当各企业的信息化建设走向了一个新的层次,面临各类法规、竞争、高质量服务的新的要求时,能否有效的建立灾难防御体系就成了企业进一步发展的一个里程碑。容灾系统的建设意义已经被铺天盖地的渲染,各级政府和行业也开始制定规则,规范信息系统在各种灾难下的危机响应水平,从各方面来看,是否有必要建设容灾系统已经走过了探讨的阶段,而摆在人们面前的却是另一个过去始料不及的问题—建立容灾系统的复杂性。这个问题的复杂度在人们考虑灾备系统规划和建设方案时凸现了出来,例如:人们会发现当提出一个理想的各类业务统一灾难防御体系的建设目标之后,却无法选出满足要求的技术路线或者需要极为高昂的造价。又比如,人们发现容灾体系建设中,IT部门却无法控制一个整体的容灾流程,而流程的制定又是一个需要全民意识的多兵种工程,等等诸如此类。

笔者遇到许多IT管理者经常针对各种容灾系统构建中出现的不解现象和困惑发问,建设经验的缺乏使得人们在遇到各类问题时感到十分迷茫。如果人们能够在建立容灾系统的初始阶段就能够对各类概念和实现手段十分清晰,就能够大大加快灾备系统的建设步伐,做到有的放矢,做到高效率和投入有效。以下,我们总结一些常见的容灾系统建设中容易混淆惑经常出现的问题,并给出一定的解决线索,以使得人们能够触类旁通,真正能够将建设的命运掌握在自己的手中,使灾备系统的建设真正做到为企业服务、为社会服务,造福于人民。

业务连续性计划和IT系统的灾备系统是什么关系?

:业务连续性管理是一个危机应急的框架,涵盖:


  • 风险管理
  • 供应链管理
  • IT容灾和恢复
  • 环境设施管理
  • 安全管理

业务连续性计划的制定主要任务包括定义详细的灾难恢复流程,明确所需的环境和资源,以及相应的容灾团队建设。业务连续性计划是一套高级管理和规章流程,使一个组织在突发性事件面前能够迅速作出反应,以确保关键业务功能可以持续,而不造成业务中断或业务流程本质的改变。

我们常说的容灾系统就属于IT容灾和恢复的技术范畴,这是一个完整的业务连续性大框架内的一个极为重要的部分,甚至于可能是最有份量的部分。一般而言,建设灾备系统,需要根据业务的要求和投入规模,确定业务连续性管理的范围和程度,然后,针对IT容灾和恢复提出切实可行的方案。缺少任何一个环节,整个灾备体系的建设都是不完整的。没有IT容灾和恢复的技术实现,整个灾备体系的规划和计划就是无源之水和空中楼阁,根本没有根基。而没有一个完善的业务连续性体系,则使得整个业务的灾难后的连续运行无法有效进行,整个组织无法形成联动机制,做到危机响应和危机应急。

IT系统的灾备技术手段主要有哪些种?

:IT系统的灾备技术手段根据IT系统的构成有很大的差异,各类手段在适合系统的程度上主要取决于系统本身的组成和建设要求。比如,IT系统由多操作系统组成,并且灾备系统不能更改生产系统原有的格局,则可行的技术手段就极为严格,需要相当慎重的选择。灾备技术实现手段中最为重要的一个步骤就是通过网络的连接,将本地端的数据复制一份到远程保存,听起来似乎不难,但在复杂的IT架构下,要想成功实现确也并不容易。以往,受制于容灾技术实现手段的局限,主要有主机型和存储型两大类容灾方式,而今天,更是出现了具有更强能力的存储网络型的虚拟化容灾方式,使得容灾的技术手段开始丰富起来。现在开始流行的CDP连续备份技术更是使容灾和备份两大不同的体系开始走向融合。

主机型远程容灾 简单的说,就是通过安装在服务器的数据复制软件,或是应用程序提供的数据复制/灾难恢复工具(如数据库的相关工具),利用TCP/IP网络连接远端的容备服务器,实现异地数据复制。

主机型远程容灾的优点是在服务器较少的环境下,所需的成本较低,用户不需更换太多现有的系统架构,也不用担心后端存储系统的兼容性问题,只需支付软件的授权费和灾备端的硬件设备费用即可。但如果是服务器数量较多的环境,管理上的复杂程度就会增加,整体的投入成本成也会增加。它的另一个缺点是软件安装在应用程序主机上,运行时会消耗主机的运行资源,如果硬件的等级不高,就可能给应用程序带来影响。

存储系统型异地容灾 顾名思义是基于存储系统(光纤磁盘阵列、NAS)的模式。通过存储系统内建的固件(firmware)或操作系统,通过IP网络或DWDM、光纤通道等传输介面连结,将数据以同步或异步的方式复制到远端。知名的存储系统型远程容灾方案有SRDF、TrueCopy、PPRC等。

与主机型远程容灾相比,存储系统型远程容灾的优点就是将数据与运行分开,对主机系统的运行资源影响比较小。另外,由于运行机制大多是利用镜像(mirror)来复制数据,并借助高速缓冲存储器加速I/O存取,两端的数据差异时间点比较小,加上存储系统本身具备一定的容错能力,具有一定的运行性能和可靠性。

而存储系统型远程容灾的最大的限制就在于其昂贵的构造成本。由于用户必须在本地端和灾备端分?e配置两套相同的存储系统,不仅采购成本高,而且还要受制于单一的设备厂商,未来的扩展性势必缺乏弹性。此外,光纤通道存储系统如果要构造远程容灾,必须在本地端和灾备端各安装一台FC-to-IP转接器,硬件成本就会超过5万美元,再加上网络带宽成本的话,整体费用投入定会令人咋舌。如果企业在安装前没有经过谨慎评估的话,建置存储系统型远程容灾极有可能造成IT支出的黑洞,加重财务负担。另外,存储型容灾方式对于数据库的一致性容灾存在很大的缺陷。在多点到一点的容灾架构上存在不适用性。

虚拟化容灾方式 一种网络存储型远程容灾架构,是在前端应用服务器与后端存储系统之间的存储区域网络(SAN),加入一层存储网关,这个网关和我们所了解的网络网关不同,以虚拟存储的代表技术美国飞康软件公司的方案为例,它结合了IPStor专用管理器,前端连接服务器主机,后端连接存储设备,它的角色就好像是存储网络中的交通警察,所有的I/O都交由它来控制管理。当然,现在也出现了旁路(side-band)的控制方式,对于IO流量进行旁路监控和分流,实现异地数据复制。

虚拟化远程容灾的优点就是功能强大。由于数据复制是通过存储网关来执行,应用服务器只需数据库执行代理程序,相对于主机型远程容灾来说,它的性能影响十分低。另外,通过存储网关的虚拟化技术,可以整合前端异构平台的服务器和后端不同品牌的存储设备,本地端和灾备端的设备无需成对配置,用户可以根据RTO和RPO,在远端建立完整的热备份中心,当本地端发生灾难时立即接管业务运行;或是采取仅在灾备端安装存储设备的温站配置,先保护数据的完整性和安全性,在本地端修复完成后再进行恢复。

除了上述的不占用主机运行资源,以及不具备存储平台局限性之外,成本更是存储网络型远程容灾的最大优势。

首先,构造时不需更换原有的IT基础架构,只需在原本的存储区域网络中加入存储网关,本地端的主机和存储设备可以是任何品牌,灾备端的主机和存储设备也不需和本地端相同,用户甚至可以在灾备端采用等级较低的存储系统(如SATA磁盘阵列),根据统计,投资成本可节省多达30%左右,对于那些有构造远程容灾的热切需要而IT预算又十分有限的客户来说,虚拟化远程容灾无疑是最佳的选择。其次,针对数据库专用代理确保数据库具有完整的容灾和启动能力,无需担忧无法启动的现象发生。更为重要的是,在存储数据上进行的多点快照等增值功能,能使得各种数据的人为破坏均可以得到瞬间恢复的能力(也就是历史数据的恢复能力,这在前两种容灾方式中是一种恢复的盲点),是一种相当完整的容灾体系,其涵盖的灾难抗击范围远超过前述的各类方式。另外,对于异地传输的带宽占用,虚拟化容灾方式具有各类调优方式,使得这种方式能够最大限度适应用户现有的网络环境。在这种容灾体系中,容灾的构建已经不再是难事,灾难也不再是极为可怕的事情。

CDP的技术也是虚拟化容灾方式所衍生出来的一种实时系统备份技术,是一种容灾和备份的合成技术。

当然,还有多种主流灾备技术的变形和衍生技术,这里就不一一论述了。

容灾系统的业务连续指标能够提出零间断吗?

:容灾系统的业务连续性是企业的关键业务在灾难发生时的应对能力和恢复能力,即通过尽可能快速的、全面的企业业务恢复运作,将因灾难造成的损失降低到最小程度。由于在远程网络传输的实时性能力以及对现有生产系统不产生负面压力的要求等多种综合因素的制约,目前各类技术实现手段均是以一定的RPO和RTO作为灾难备份的指标实现,而零丢失或零间断基本上都不具有技术基础。由于实现零间断采用全同步方式造成的高额的支出和系统运行损害使得零间断或零丢失都不具有可行性。

为什么多点容灾相比单点容灾具有更为复杂的实现?

:许多远程复制技术是基于点到点的传输方式或者要求对等的系统(如主机或存储是相同的类型),但是一个分布式的多点系统情况则不同,这类系统往往要求各节点集中容灾到一个灾备中心,实现多到一的复制,并且,有可能对等系统(如存储设备)并不完全相同。更为重要的一点,在多点容灾系统中,各个异地传输的网络条件也可能不尽相同,往往会出现某些节点低带宽的传输特点,这样就大大限制了能够采用的容灾技术。面对多点容灾体系的架构,人们需要更加注重架构的适应性,选择功能和结构适合的技术实现,也就是说,功能和结构是首选考虑因素。

灾备演练如何考虑?

:灾备演练是验证灾难发生时,业务系统能否有效联动切换的极为重要的手段。没有灾备的演练计划和手段,往往无法预知灾难发生时生产中心和灾备中心的数据一致性,也无法预知灾备中心是否具有了业务接管的一切必要条件。以往,由于一些企业采用的容灾技术实现不具有灾备演练的技术手段,出现了一些企业在故障发生时,仍然无法启动后援系统进行业务的接管的现象,这些企业不得不仍然采用传统的备份恢复方式进行耗时的数据恢复,不仅出现了大量的数据丢失而且,动辄数十小时的业务停顿,也使得灾备系统的设计者狼狈不堪,教训十分深刻。因此,选择有效的灾备技术手段的同时,决不能忽略灾备演练的技术手段的提供,在具有多种技术手段的基础上,制定灾备系统的演练和测试计划。灾备的演练计划有以下几种方式:

A 计划性测试/演练

灾难恢复计划要求建立业务连续性管理团队,不仅涉及IT部门,而且关联众多业务部门,为减少演练对于生产的影响,可以将恢复计划细化到很小的单位或者模块,逐个应用进行接管验证。

当模块都成功通过测试后,测试的范围可以扩充到更多的模块。

B 突发演练

在灾备系统全面完成并且制定了全面的恢复计划后,可以在进行了一定备份的情况下安排突发性的测试。当然,业务连续性管理小组需要确保业务不会因为突发性测试造成不可接受的损失和业务中断。

演练对于提高团队的恢复经验和协作能力以及确保灾难恢复计划的可行性是至关重要的。所有的演练结果都要进行评估、记录、并且生成到容灾流程里。

还有哪些要预先考虑的因素?

答:容灾体系需要现有的基础设施状况,如现有异地传输网络的状况、现有主机系统和存储系统状况、现有生产环境的变动能力等等,体现在考虑因素上就是以下几点:

1.是否是低带宽特征,如果是则需要考虑具有带宽优化的技术实现

2.是否是异构系统?如果是则需要考虑异构的灾备体系

3.成本。权衡和比较不同灾备实现的成本,这里会产生很大的差异。

4.灾备系统是否对于生产系统产生很大的变动?有时候,这往往是致命的。

5.灾难的防御范围。除了人们已知的各类自然灾害、设备故障外,是否需要防范人为的数据篡改或丢失?如果是,所采用的技术就需要更为全面、功能覆盖面更为广泛。

6.工程实施过程。实施是否简单、维护过程是否简单往往决定了系统今后的维护和运营成本和对生产系统的影响。

…… …… 

容灾建设的要素还有很多,全面考虑业务连续性体系的每一个方面,抓住最为重要的环节,进行深入而细致的研究,就能够使有限的资金发挥更大的能量,达到事半功倍的效果,这也是本文的目的所在。