存储专家:正确认识容灾以及容灾工程的系统分析

    随着信息化进程的加快,电子商务和电子政务逐渐成为社会经济的重要组成部分。将业务建立在IT系统上的企事业单位开始重视信息的安全性,这同时也是单位决策者最为关心的问题。影响信息安全的因素是多方面的,因此需要采用不同的技术手段来解决。所谓容灾,就是为了防范由于自然灾害、社会动乱和人为破坏造成的企事业单位信息系统数据损失的一项系统工程。
  
    正确认识容灾
  
    业务连续性(BC)与数据安全性是密切相关的,数据安全性是实现BC的基础。统计结果表明,在过去5年内,全球93%的公司有过丢失重要数据而造成业务损失的经历,72% 的业务没有可靠的BC计划,只有18%的最终用户的数据得到了可靠保护。许多企事业单位虽然已经认识到信息安全的重要性,但没有实施保证信息安全的行动,这其中的原因是多方面的,最主要的一个就是在如何建立容灾系统的问题上存在种种疑惑。我国企事业单位在实施容灾工程方面尚处于初级阶段,对容灾技术的了解主要来自国外厂商的一些介绍。某些已经建成并投入使用的容灾系统,只能实现单一业务的数据容灾,而且存在总体投入成本高、投资回报率低、容灾数据的可恢复性难以验证、需要购买厂商的技术支持、管理成本居高不下等问题。以上种种因素使得部分准备建立容灾系统的用户裹足不前。
  
    我们应该如何认识容灾呢?容灾是一项系统工程。用户在建立容灾系统之前,首先要进行全面的系统分析,其中包括业务系统风险分析、容灾系统对业务系统的影响分析和投资效益分析。风险分析是检查那些可能造成数据损失或者系统瘫痪的外在和内在因素。既然是容灾,必须充分考虑业务系统所在地的自然环境,针对可能发生的灾难,准备相应的容灾对策。容灾系统肯定对业务系统的性能有一定影响,因此,对于那些高负荷运行的业务系统必须认真计算。建立容灾系统,除了需要购买必要的设备外,还要考虑系统维护管理成本和使用通信线路的费用。
  
    设计容灾系统,必须提出设计指标。既然建立容灾系统是为了数据或者业务的快速恢复,容灾系统的设计指标就与业务系统的数据可恢复性密切相关。RTO(Recovery Time Objective)代表容灾系统在灾难发生后数据或者系统恢复所用的时间。RPO(Recovery Point Objective)代表灾难发生时已经备份的数据与生产中心数据的时间差。此外,设计容灾系统还需要考虑选择容灾备份中心地点。数据库容灾要保证备份数据库的一致性,最好能够对备份数据库进行对生产系统无干扰的实时检验。通常情况下,容灾系统投资较大,使用概率较低,因此,需要对总体投入成本(TCO)和投资回报率(ROI)进行认真的分析和计算。
  
    目前,市场上有多种成熟的容灾技术可以选择,这些容灾技术最主要的技术差异在于数据复制的发起平台和接受平台。数据备份后的异地保存方式依靠备份介质的移动和保存。存储子系统逻辑卷之间的数据复制依靠存储子系统的数据复制软件。应用系统逻辑卷之间的数据复制依靠主机卷管理软件的远程数据复制功能。虚拟存储系统之间的数据复制依靠虚拟存储管理平台的逻辑卷复制软件。数据库服务器之间的数据库复制依靠数据库ODS功能的扩展。
  
    企事业单位中的决策者在实施容灾系统工程时,必须制定详细的容灾计划。通过制定容灾计划,可以帮助用户根据自己的业务模式来确定容灾系统的设计要求,根据系统分析决定容灾系统设计参数,根据业务系统的区域网络环境选择合适的容灾技术。容灾计划还应该包括制定灾难发生后的应急程序,建立启动容灾系统的管理机构和各方面的行动小组,以及一些非技术的因素(如损失评估与保险商、设备重建与供应商、社会公共关系与系统用户等)。
  
    总而言之,容灾是一项系统工程,必须通过制定详细的容灾计划来实施。在后续文章中,将就如何建设容灾系统的其它问题进行深入探讨。
  
    容灾工程的系统分析
  
    容灾工程的系统分析包括:业务系统的风险分析(Risk Analysis),容灾系统对业务系统的影响分析(Business Impact Analysis)和容灾系统的投入和产出分析(Cost-Benefit Analysis)
  
    业务系统的风险分析
  
    建立容灾工程的最终目的是保证在灾难造成对业务数据破坏后,业务数据的可恢复性,所以,首先要分析本地区影响业务数据安全性的灾难有哪些种类。灾难可以分为自然灾难,社会灾难和人为灾难。
  
    自然灾难包括火灾、水灾、地震等突发自然灾害造成的业务系统的灾难,而不同地区的自然灾害的发生有一定的统计概率,而且自然灾害的影响范围是有一定区域的,对自然灾害的风险分析相对比较容易。在实施容灾工程时,特别要注意容灾备份中心的选择,建立在自然灾害较少的地方,在美国,一些州通过立法,规定容灾备份中心可选择的地区。
  
    社会灾难包括区域性电力系统故障,恐怖分子制造的爆炸、战争引起定点破坏等灾难,国内外社会不安定因素的存在,必须引起足够的忧患意识。美国“9?11”事件就是一个很好的例子,一些没有采取任何容灾措施的企业由于核心业务数据的破坏而最终破产,而一些采用了容灾措施的企业得以生存,有的建立了备用业务系统的企业的业务能够很快恢复。
  
    人为灾难包括IT系统管理人员的误操作、来自网络的恶意攻击、计算机病毒发作造成的数据灾难。近几年,人为灾难更为突出,特别是计算机病毒造成的数据损失触目惊心。最近,迅速泛滥的“冲击波”(Worm Blaster)病毒,致使全球上百万台计算机中毒,部分网络服务器瘫痪,迄今已给全球商业界造成了几十亿美元的直接损失,尽管有关公司发布了软件补丁,但余波未静,“冲击波”变种仍然伺机而动。研究结果表明,下一代电脑病毒传播的速度将更快。一种名为Flash的病毒将在极短时间内感染所有的网络,而另一种名为Warhol的病毒将在15分钟之内传遍全球。采用后发制人策略的防计算机病毒系统难以保证数据的安全,有必要建立数据的备份机制。
  
    容灾系统对业务系统的影响分析
  
    数据复制操作的发起来自业务系统,不论来自系统的计算层、网络层,还是存储层,肯定会影响到业务系统的性能,对于那些要求高性能的业务系统或者已经是高负荷运行的业务系统,必须分析建立容灾系统对业务系统性能的影响。不同容灾技术对业务系统的影响不同, 比如,一个采用同步数据复制技术的容灾解决方案,如果容灾备份中心与业务中心距离超过100公里以上,需要考虑数据传输的时延对业务系统IO性能造成的影响,距离越远,业务系统IO性能下降的速度越快。
  
    容灾系统备份系统运行平稳后,需要对备份数据(数据库)的可用性进行检查,一些容灾解决方案采用的是主/备工作方式,正常情况下,备份中心的数据是不能够打开使用的,只有在业务系统工作中断,或者切断容灾进程的情况下,才能够对备份数据(数据库)的可用性进行检查,这样做,势必对业务系统正常运行产生影响。
  
    容灾系统包括传输数据的网络,由于网络传输拥堵或者中断等原因,数据复制同样会造成业务系统性能的下降甚至业务运行的中断,当等待传输的数据溢出数据复制发起端的缓冲区时,有可能造成数据的丢失,或者数据传输次序的混乱,破坏备份数据库的一致性,使得数据库不可恢复。
  
    容灾系统的投入和产出分析(CBA)
  
    众所周知,TCO和ROI是衡量容灾系统投入和回报的主要指标,CBA强调的是投资产出的分析,从业务系统发展的角度考虑容灾系统投资的合理性。
  
    首先,要考虑准备建设的容灾系统与正在运行的业务系统的延续性,保护前期投资,为了建立新容灾系统而对原有业务系统进行大规模改造的情况,应该尽量避免。其次,要考虑业务系统扩展对容灾系统的影响,特别是存储容量增加的影响和通信线路负荷的影响,由于单业务容灾系统使用概率很低,CBA的结果倾向于选择专业的数据容灾中心服务方式。
  
    容灾系统的设计指标
  
    要建设容灾工程必须提出容灾系统设计指标,作为衡量和选择容灾解决方案的参数。目前,国际上通用的容灾系统的评审标准为Share78:



  • 备份/恢复的范围

  • 灾难恢复计划的状态

  • 业务中心与容灾中心之间的距离

  • 业务中心与容灾中心之间如何相互连接

  • 数据是怎样在两个中心之间传送的

  • 允许有多少数据被丢失

  • 怎样保证更新的数据在容灾中心被更新

  • 容灾中心可以开始容灾进程的能力

    Share78只是建立容灾系统的一种评审标准,在设计容灾系统时,还需要提供更加具体的设计指标。建立容灾系统的最终目的,是为了在灾难发生后能够以最快的速度恢复数据服务,所以,容灾中心的设计指标主要与容灾系统的数据恢复能力有关。最常见的设计指标有:RTO 和RPO。 
  
    各种容灾解决方案的RTO有较大差别,基于光通道技术的同步数据复制,配合异地备用的业务系统和跨业务中心与备份中心的高可用管理,这种容灾解决方案具有最小的RTO。容灾系统为获得最小的RTO,同样需要投入大量资金。
  
    RPO反映恢复数据完整性的指标,在同步数据复制方式下,RPO等于数据传输时延的时间,在异步数据复制方式下,RPO基本为异步传输数据排队的时间。实际应用中,考虑到数据传输因素,业务数据库与容灾备份数据库的一致性(SCN)是不相同的,RPO表示业务数据库与容灾备份数据库的SCN的时间差。发生灾难后,启动容灾系统完成数据恢复,RPO就是新恢复业务系统的数据损失量。
  
    不同的容灾解决方案的RTO和RPO是不相同的,下面列举几种容灾解决方案的RTO和RPO的对比:
  
    设计容灾系统不能只看RTO和RPO,对于不同的业务系统和用户特殊的要求,其他一些指标有可能成为选择容灾解决方案的主要因素。譬如,某些地区为了防范一些特定自然灾害的风险,要求容灾备份中心与业务中心保持足够的距离,在这种情况下,容灾备份中心与业务中心的距离要求,成为容灾系统的重要指标。
  
    大部分业务系统都是数据库应用结构,业务系统容灾实际上就是数据库容灾,实现数据库容灾的难度是始终要保证数据库的一致性,为了保证容灾备份数据库随时能够打开运行,必须对容灾备份数据库进行可用性检验。由于大部分容灾技术都是采用逻辑卷数据复制方式,难以保证容灾备份数据库在所有检验时间点的一致性,有可能出现单次检验失败的情况,不得不进行重复检验。把容灾备份数据库的检验成功率作为容灾系统的设计指标是必要的。
  
    通信网络是容灾系统的组成部分,通信线路的质量也是容灾系统的性能指标之一。其中包括网络的数据传输带宽、网络传输通道的冗余和网络服务商的服务水平(网络年中断率)。如果,容灾系统使用的通信网络是确定的,为了比较不同容灾解决方案,可以用单位存储容量的数据库在同一通信网络上,数据完全恢复所用时间作为一项设计指标。
  
    如果要求容灾系统具有防范各种灾难的能力,特别是具备抵御人为破坏的能力,需要把容灾系统的数据备份作为一个设计指标。这是因为所有通过网络对业务中心的人为破坏和管理人员的误操作,同样影响到容灾备份中心。只有采用离线数据备份的方法,才能够防范人为的灾难。
  
    从经济角度考虑,最佳的容灾解决方案不一定是性能最好的容灾解决方案,容灾系统的总体投入TCO和投资回报ROI,对于许多用户来说是十分重要的设计指标。TCO包括建立系统、维护系统和扩充系统的总投入,由于容灾系统的启用概率很低,新技术的发展和新产品的性能价格比的提高,必定造成容灾设备的贬值。所以,对于容灾系统TCO越高,ROI越低。
  
    由于业务不同模式的IT系统在升级过程中,会采用新技术和新产品,业务系统任何变动都会引起容灾系统相应的变化,势必加大系统升级的投入。要想把这种变化的影响降低到最小,容灾系统的灵活性和兼容性也应该是十分重要的指标。
  
    综上所述,进行容灾系统设计时,必须根据企事业的业务系统的使用情况,综合考虑地理环境、网络条件、投资规模、业务系统长远发展规划等各种因素,制定合理的可行的容灾系统设计指标。
  
    容灾技术的分类



    应用于容灾工程的技术统称为容灾技术。对于各单位不同的IT业务系统,应该选择不同的容灾技术。每种容灾技术都有自身的技术特点和某些应用局限性。通过对容灾技术的分类,可以帮助用户在容灾工程设计中选择最适用的容灾解决方案。
  
    在讨论容灾技术分类前,先了解一些有关容灾的技术术语。
  
    同步复制与异步复制:同步复制是指向业务系统存储数据和向备份系统存储数据同时进行,只有在两地数据存储操作完成后,才能够进行下一个数据存储操作,因此,同步复制的IO操作时间以最长的IO用时为衡量尺度。异步复制是指对业务系统的数据存储操作独立进行,对备份系统的数据存储操按照排队方式进行,业务系统的IO操作不受异地备份系统的IO操作影响。为了保证数据传输排队的次序,异步复制需要一些特殊技术的支持。
  
    源数据与目标数据:业务系统的数据是源数据,备份中心的数据是目标数据。在双工模式下,A业务系统可以存储B业务系统的目标数据,反之亦然。在多向复制模式下,源数据可以有多个目标数据作为备份。在集中模式下,容灾备份中心可以存储多个业务系统复制来的目标数据。
  
    冷容灾中心与热容灾中心:冷容灾中心的目标数据只能在数据恢复时使用。热容灾中心的目标数据在一定条件下可以离线使用。对于数据库来说,热容灾中心的数据库时刻处于打开状态。
  
    容灾技术的分类方法有很多种,按照数据复制的发起端来进行分类,能够比较清晰地了解各种容灾技术的特点。
  
    技术最简单和投资最少的容灾解决方案是基于数据备份与恢复技术的解决方案。只要对业务系统每日备份的数据制作一个相同的拷贝,通过交通工具运输到容灾备份中心保存起来,这样不需要购买大量的设备和软件,只需要对备份数据的介质进行有效管理。如果在容灾中心建立备用业务系统,当业务系统遇到灾难破坏后,备用中心能够很快投入工作,不难想像,这种容灾技术的RPO是最差的,但对特定的业务系统不失为一个高性价比的容灾解决方案。
  
    国内常见的容灾解决方案,都是采用在相同存储子系统之间进行数据复制的方式,一般,使用安装在存储子系统上的数据复制软件,保持业务系统的存储数据逻辑卷与备份系统存储数据逻辑卷的一致性;存储子系统的容灾技术可以选择同步复制或者异步复制方式;由于是逻辑卷级的数据复制,存储业务系统源数据的存储子系统也可以存储其他业务系统的目标数据;按照逻辑卷复制的要求,存储目标数据的逻辑卷是不能被业务系统直接使用的,所以,存储子系统的容灾技术属于冷容灾方式。
  
    另一种基于主机卷管理软件的容灾技术与存储子系统的类型无关,与业务系统的服务器平台有关。主机卷管理软件的容灾技术同样可以选择同步或者异步复制方式;通过卷管理软件的远程数据复制的扩展功能,可以把业务系统的源数据复制到多达31个备份中心的存储系统的指定逻辑卷;存储目标数据的逻辑卷不能被业务系统所使用,卷管理软件的容灾技术属于冷容灾方式。
  
    虚拟存储技术的发展,加强了基于网络的存储管理,由虚拟存储系统的管理平台负责存储池内所有数据逻辑卷的管理,安装在虚拟存储管理平台上的数据复制软件,组成虚拟存储系统虚拟逻辑卷之间复制的容灾解决方案。虚拟存储容灾技术也是基于逻辑卷数据复制方式,特点与以上两种容灾技术相似。虚拟存储容灾解决方案与存储子系统的类型和业务系统服务器的平台无关,具有较好的灵活性,适合作为多业务系统数据中心的容灾解决方案。
  
    部分数据库软件厂商和数据库的优化软件供应商提供了基于数据库的容灾技术,基于数据库的容灾技术与上述三种基于存储逻辑卷的数据复制容灾技术有较大的差别,基于数据库的容灾技术传输的是SQL指令或者重作日志文件,在新数据没有被业务系统写入存储子系统前,就被指定发送到异地备份中心的数据库进行相关处理。数据库容灾技术采用异步传输方式,通过IP网络传输,支持一个业务中心向多个备份中心的数据库进行复制的要求,或者多个业务中心向一个备份中心复制的要求。在容灾过程中,业务中心和备份中心的数据库都处于打开状态,所以,数据库容灾技术属于热容灾方式。数据库容灾技术与存储子系统的类型、业务系统服务器的平台无关,与数据库的版本有一定关系,数据库容灾解决方案具有较好的使用灵活性。数据库容灾技术只能作为数据库应用的容灾解决方案,如果需要其他非结构数据的容灾,还需要其他容灾技术作为补充。
  
    还有一种介于逻辑卷时间复制和数据库数据复制的软件容灾技术,通过提取操作系统的IO指令形成日志文件,传输到容灾中心的应用系统,可以使用前滚的方式在容灾中心重建任意一个时间点的业务数据或者数据库,这种容灾技术为灾难后数据恢复提供了多种选择。
  
    在选择容灾技术时,需要考虑业务系统的类型,是单业务系统还是多业务系统?是数据库应用还是非结构化数据?是数据容灾还是业务系统容灾?用户可以根据要求,选择一种主要的容灾技术作为容灾解决方案的基础,辅之其它容灾技术满足特定的要求。
  
    制定容灾计划的若干问题
  
    俗话说:“预则立,不预则废。”容灾计划是容灾工程中最主要的组成部分。除了前面介绍的业务系统风险分析、制定容灾系统性能指标和选择容灾解决方案是容灾计划的组成部分,还要全面考虑在灾难发生后,所有可能出现的情况以及相应的对策。为此,设想一个已经建立了数据容灾的业务系统,在发生灾难后可能出现的情况和相应的对策:



  • 异地的容灾备份中心判断和确认业务中心是否发生灾难

  • 由谁负责启动和指挥容灾系统开始工作

  • 按照计划快速恢复被破坏的业务系统IT基础架构

  • 恢复容灾备份中心与业务中心之间通信

  • 容灾备份中心开始按照计划逐个恢复业务系统的数据

  • 被灾难破坏的业务系统重新开始运行

    如果在容灾备份中心同时建立了备用业务系统,以上次序需求稍有调整:



  • 异地的容灾备份中心判断和确认业务中心是否发生灾难

  • 由谁负责启动和指挥容灾系统开始工作

  • 异地备用的业务系统接替被灾难破坏的业务系统开始运行

  • 快速恢复被破坏的业务系统IT基础架构

  • 恢复容灾备份中心与业务中心之间的通信

  • 容灾备份中心开始按照计划逐个恢复业务系统的数据

  • 被灾难破坏的业务系统重新开始运行,备用业务系统停止工作

    现代通信技术和远程网络监测,可以帮助异地的容灾备份中心管理员和决策者迅速了解业务系统的工作状况,在最短时间内启动容灾计划。对于建立了备用业务系统的容灾系统,可以通过跨地区的高可用管理软件实现业务的自动切换,需要小心的是,软件对灾难的判断能力是有限的,将业务从一个地方切换到另一个地方如此重大的决定,还需要系统管理人员和决策者作最终控制,系统管理人员和决策者发现问题、检查故障、判断灾难和决定启动容灾计划都需要时间,只有按照严格的操作程序执行计划,才能够提高容灾系统的反应速度。对容灾系统管理人员和决策者的使用培训和模拟演练,也是容灾计划的组成部分之一。
  
    容灾备份中心管理队伍应该组织严密、分工详细和保持联系,要在最短时间内,重建一套业务IT系统,需要设备供应商,软件开发商和系统集成商之间的紧密配合,必须把有关服务商加入到容灾计划中来,承担一定责任和任务。除了设立专门的技术服务人员外,还要有专门的财务人员与保险公司核定损失,专门的公共关系人员平息业务系统最终用户的抱怨。
  
    通信线路顺畅是数据恢复的保证,备有冗余的通信线路无疑能够保障计划内数据恢复的时间。在通信线路完全破坏的极端情况下,还要准备利用数据备份介质来恢复数据。随便提一句,在备份数据时,最好同时备份系统和业务应用程序及其相关网络配置(现在已经有这种软件),有利于整个业务中心的快速恢复。
  
    把执行容灾计划的过程制作成流程图,可以帮助我们更加详细地了解容灾计划的制定和执行步骤。
  
    从以上介绍可以得知,制定容灾计划是一个涉及广泛的复杂的十分技术化的工作,对一般非IT行业的企事业IT系统管理人员是极其困难的,企业建立一支配置完整的容灾服务队伍,无疑提高了IT系统的管理成本。此外,容灾系统一旦建立,由于使用的概率很小,设备的利用率较低。所以,从容灾工程发展的趋势看,采用外包服务对大多数企事业是一个明智的选择。面向众多客户业务系统的容灾服务中心具有较高资源利用率,数据多重备份提供相对安全的数据保护,多种可自由选择的容灾服务方式适合不同的企事业的不同业务发展阶段的需求,专业化的容灾管理减少了容灾管理的费用,快速的数据恢复能力最大限度地减少灾难带来的损失,为客户定制的容灾计划可以根据需要随时修改。



不同容灾解决方案的RPO与RTO



容灾系统的实施


    存储介质的成本与容量
  
    这一技术历史表明,从长远角度看,随着老技术的过时,新技术开始取代它们,并总是保持一个稳定的前进速度。在数据格式化与保存的进步中,磁带技术是一个常量。
  
    存储成本的下降致使许多以前考虑的成本被放弃。例如减少使用案例类型、位映射显示和彩色打印。
  
    数据格式化的研究紧跟在各种数字化数据的计算机存储要求之后进行。务必记住在“业务持续性”运营模式下保持数据完整性所需的存储容量。



存储容量的成本