存储专家谈容灾:用CDP技术实现远程容灾计划

随着信息化社会的飞速发展,从人们的日常生活到企业的业务运营,都被日益渗透的信息系统所包围。而近年来,从海啸、地震等大型自然灾害(突发性灾难)到被黑、中毒、系统受损、人为操作失误等软性错误(渐变性灾难)的频繁发生,使人们不得不重新审视以信息系统为核心业务载体所面临的高度风险。然而,社会发展不能倒退,我们也不可能因为信息系统存在巨大风险而就此放弃,只有积极寻找妥善的办法,才能确保企业的持续运营能力。因此,构建完善的容灾系统,当务之急。

从广义上讲,任何提高系统可用性的努力,都可称之为容灾。但是,企业在容灾系统设计中一般的选择是做数据备份和采用主机集群系统,它们已经可以解决本地数据的安全性和可用性问题。但这只是本地的数据容灾方案。随着信息系统普遍成为企业运营的命脉,单一的本地容灾已经远远不够,通过构造远程容灾机制来保证业务持续性,已得到企业管理者们普遍的认可。然而,远程容灾技术的类型众多,且架构大多十分复杂,不但投入的软硬件设备与时间成本庞大,后续的维护成本也高得吓人,因此使得远程容灾系统的建设踌躇不前。

灾备系统的容灾技术实现是一个灾备系统建立的最为重要的考虑因素之一,这一因素的考虑是否完善,甚至于决定了灾备系统的成败。因此,我们可以看到许多企业在下达了灾备系统建设任务之后,却迟迟无法在技术方案的论证环节上达到统一,换句话说,找到一个完美的技术路线是那么的艰难。容灾技术是灾备系统的核心,从用户切实的容灾系统技术和工程可行性出发,下面我就对构建容灾系统时需要考虑的技术因素进行简单的分析:

(1)所防范的灾难范围

也就是明确计算机系统需要承受的灾难类型,系统故障、硬件故障、数据逻辑受损、火灾及地震等各种意外情况所采取的备份、保护方案不尽相同。根据各行业的特点和国际上相关机构的调查,硬件故障、人为错误、软件错误居信息系统故障发生概率的前三位,自然灾害等属于小概率事件,但由于破坏力大,也是灾备系统必须防范的重要内容。从宏观上看,现在人们经常将灾难分为自然灾难和渐变性灾难(如人为的失误型故障、黑客攻击、断点等)两种,容灾实现的技术保护手段在抗击这两类灾难时一般是有所区别的。传统的容灾手段一般重点集中在火灾、地震等大型灾难的防范上,防范软件和人为错误等的渐变性灾难大多依赖于备份软件系统,因此这类容灾系统并不具有涵盖全系列灾难防范的内容,因此一种新型技术CDP(持续数据保护)的出现,这种先进的连续多版本数据保护技术CDP 则将各类灾难的类型均纳入到防范和抗击的范畴,并且在受损后的恢复技术上也作了极大的改进,能达到瞬间恢复的能力,这一切,都使得容灾技术更为完善和成熟,恢复技术日臻完善。

(2)容灾系统对企业当前业务的影响程度

目前很多服务性行业,如银行、医院等都要求其门户系统保证7X24小时在线运行,但在线系统的状况可能略有不同,灾备系统的建设应首先不修改现有生产系统的结构(否则会可能产生对现有系统状态的破坏和增加不稳定因素,导致今后生产系统维护增加极大的难度),其次,容灾系统的实施应采取最为简易和快捷的方式,工程上应具有可操作性、周期的可控性,实施周期要短,这样才能最大限度地减小对原有在线系统的影响,提高容灾系统建设的成功率。大多数的CDP解决方案应为旁路的解决方案, 无需对现有系统进行更改,不迁移不改变现有的数据结构,只需将CDP接入到现有的IP或FC交换机上,通过安装在应用主机的客户端软件将数据持续的保护到CDP设备中,达到快速部署的目的。

(3)灾难发生的业务停顿的容忍时间指标

必须明确当计算机系统发生意外无法工作时,导致业务停顿所造成的损失程度,也就是定义用户对于计算机系统发生故障的最大容忍时间。这也是设计容灾备份方案的重要技术指标。对于容灾系统来说,它除了集群系统之外的其它容灾系统,在灾难发生后都需有一个恢复的过程,尤其远程容灾的宕机时间最长,那怎样来解决企业用户对容灾系统所需的恢复时间呢?这也是CDP解决方案满足业务系统恢复生产所需最小时间的一个优势,CDP可以达到企业级用房所需的分种级恢复的时间要求,这种恢复时间都是一般容灾技术或容灾花费开销所不能及的要求。

(4)数据保护程度

是否要求数据库可以恢复所有提交的交易并且要求实时同步数据也就是数据的连续性和一致性,决定了容灾备份方案规模和复杂程度的重要依据。传统的容灾技术大多采用的是基于磁盘阵列或应用主机来实现的,因此数据的同步都局限于数据盘的数据同步,同步镜像技术可以达到数据盘的数据同步,异步镜像无法达到数据盘的数据一致性,因此借住于快照技术达到目一时间点的数据盘的同步。但在技术中都无法确保实进运转的在线业务系统数据的一致性。在恢复的可选程度上也有一定的局限,恢复当前发生灾难这一刻的磁盘数据(主要针对大型灾难,渐变性灾难无法恢复),或恢复到通过快照技术所保留的某一时间点版本的数据(主要针对渐变性灾难,大型灾难也能用些方法),局限于快照技术及执行快照执行者(磁盘阵列或应用主机)本身,两快照之间的时间差是不可避免并且无法缩短到企业级用户所期望间隔值。因此在最新CDP解决方案中充分考虑到传统容灾技术在这方面的不足之处,体现在两个方面:一是,快照技术的提升可以做到分钟级的间隔,另外还集成了日志记录技术,可以记录最近一段时间内所有数据写IO的情况,完全使得CDP解决方案可以使业务系统恢复到当前灾难点到最近一段时间内的任何一个时间点的数据。二是,CDP解决方案可以感知业务应用系统,在执行快照操作时会将实时在线业务处理的应用系统在那一时刻点的数据全部刷入到数据磁盘,确保数据的一致性及可恢复性。

(5)技术的维护难度

由于长期以来,容灾技术的复杂性和高成本性,使得大量的容灾系统建设都呈现出维护难度大、传输故障的防范能力低、灾备演习难度大的特征。因此,选择的容灾技术应考虑到技术实现和管理的友好性和简易性,灾备中心管理人员的本地可自行维护能力是一个重要的因素,这是故障快速响应和处理的一个基础,这样才能使得多极的维护体系更为有效率、处理故障的能力更为强大。CDP解决方案在简单部署,简化管理方面一样做的很到位,无需改变现有环境的简单接入、图形化的人机对话界面、鼠标方式的操作管理,极大的提高系统的可维护性及可管理性。

(6)最为容易忽略的一点,容灾的技术手段是否适合于现有的所有参与系统,能否面向今后可能加入的其他业务系统。

这一点,成为目前容灾体系技术路线的讨论中最为困扰各方的一个因素。混合系统容灾、开放设备的选择常常使得用户的理想与技术现实产生鸿沟。如果能够在本次建立容灾系统时,采用面向未来的技术,这样就可以形成一次构建,长期受益的良好架构,而且今后的系统改造成本将会十分轻微,达到为全系统服务的长期目标。为此,CDP解决方案在这方面也做了一定的努力,不仅隔入了现有的容灾技术及对现有存储设备和应用主机平台的支持,也加入了最新的容灾技术及接口协议等,做到了与应用方机系统,存储设备接口协议、品牌的无关性,完全满足未来企业系统扩展的需求,而无需对现有已建系统的改造。

容灾系统建设的技术要素还有很多,但如果建设者能够充分利用新一代的CDP持续数据保护,牢牢抓住容灾系统规划中最为重要的环节,切实克服容灾系统建设的诸多需求,就能够用有限的资金发挥更大的能量,达到事半功倍的效果,这也是笔者的目的所在。