信息系统灾难备份技术简述

1 背景

党中央和国务院十分重视信息安全工作。2003年,中办发[2003127号文《国家信息化领导小组关于加强信息安全保障工作的意见》,要求各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案。2004年,国家网络与信息安全协调小组办公室发 12004]11号文《关于做好重要信息系统灾难备份工作的通知》。明确指出,提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定。2005年,国务院信息化工作办公室出台了《重要信息系统灾难恢复规划指南》,为灾难恢复工作提供了一个操作性较强的参考思路。

2007年,国家标准《信息系统灾难恢复规范》(GB/T20988-2007)正式颁布,这是灾备建设中具有里程碑意义的重要大事。该标准对灾难备份、灾难恢复相关术语进行了规范和梳理,指明了灾难恢复工作的流程,明确了灾难恢复的等级和相关要素,制订了灾难恢复工作的主要环节及各环节具体工作等。在2010年召开的第五届中国灾难恢复行业高层论坛上,提出了我国将全面启动灾难恢复体系建设,制定强制性灾备建设规范,完善灾备标准体系并及时出台灾难恢复服务资质管理办法,以促进政府相关部门、行业用户、企业灾难恢复保障体系的发展。目前,许多政府部门和重要行业已经开始积极有序进行应急管理、灾难备份与恢复体系的建设工作。

近十年来,国土资源信息化建设发展十分迅猛,数据积累不断丰富,政务信息系统日渐增多,其安全性和稳定性显得愈来愈重要。一旦发生人为或自然等突发性灾难,造成数据丢失或信息系统严重故障或瘫痪,将会直接影响到国土资源管理工作的正常运转以及一些企业和广大民众的利益。灾备工作将成为国土资源信息化建设的一项十分重要的工作。本文对目前的灾备主流技术进行综述。

2 灾备指标和类型

灾难事件一般包括:自然灾难(如风、火、水、雷电和地震等)、人为灾难(如人为失误、非授权操作等偶然故障,病毒入侵、骇客及人为破坏等 Byzantine故障、恐怖袭击和战争等)和技术灾难(设备故障、软件错误、电信网络中断和电力故障等)。统计资料表明自然灾难(包括人为的战争和恐怖袭击等)仅占灾难的3%,人为灾难占灾难的39%(其中。偶然故障和Byzantine故障分别占32%和7%),而技术灾难占到灾难总数的58%.

根据《信息系统灾难恢复规范》,灾难被定义为。由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。通常导致信息系统需要切换到灾备中心运行。灾难恢复指的是,为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。灾难备份指的是,为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程。

广义地理解,灾难备份(简称灾备)是指利用技术、管理手段以及相关资源确保关键数据、关键数据处理系统和关键业务在灾难发生后可以尽可能多且快地恢复的过程,包括灾难备份和灾难恢复两层含义。不仅包括灾难发生前对数据的备份和日志,信息系统构建过程中容灾体系结构的设计、提前制定的灾难应急预案与恢复计划等,而且涵盖了灾难发生后灾备中心或者备份系统的业务接管,数据、系统、服务迁移过程中的安全管理、系统灾难损失评估等内容。灾备的目的就是确保关键业务持续运行以及减少非计划宕机时间。

衡量灾备系统的两个重要指标是:恢复时间目标(RTO,recovery time object)和恢复点目标(RPO,recovery point object)。

RTO:恢复时间目标,以时间为单位。即在灾难发生后。信息系统或业务功能从停止到必须恢复的时间要求。RTO标志系统能够容忍的服务停止的最长时间。系统服务的紧迫性要求越高,RTO的值越小,灾备能力就越高。

RPO:恢复点目标,以时间为单位,即在灾难发生时,系统和数据必须恢复到的时间点要求。RPO标志系统能够容忍的最大数据丢失量。系统容忍丢失的数据量越小,RPO的值越小。若RPO等于0,相当于没有任何数据丢失。否则,就需要进行业务回复处理,对丢失数据进行修复。

RPO针对的是数据丢失。RTO针对的是服务丢失,两者必须在进行风险分析和业务影响分析之后根据业务的需求来确定。

一般而言,灾备分为三个级别:数据级、应用级和业务级。其中数据级、应用级都属于IT系统范畴之内,而业务级则考虑到IT系统之外的业务因素,包括备用办公场所、办公人员等。

数据级灾备的关注点在于数据,即灾难发生后可以确保用户原有的数据不会丢失或者遭到破坏。较低等级的数据级灾备可将备份的数据通过人工方式保存到异地实现,如将备份的磁带(盘或光盘)定时运送到异地保存就是方法之一。而较高级的数据灾备方案则依靠基于网络的数据复制工具,实现生产中心不同备份设备之间或是生产中心与灾备中心之间的异步/同步的数据传输,如采用基于磁盘阵列的数据复制功能。

应用级灾备是在数据级灾备的基础上,对应用系统进行复制,也就是在异地灾备中心再构建一套应用支撑系统。支撑系统包括数据备份系统、备用数据处理系统、备用网络系统等部分。应用级灾备能提供应用系统接管能力,即在生产中心发生故障的情况下,灾备中心便能够接管应用,从而尽量减少系统停机时间,提高业务连续性。

业务级是最高级别的灾备系统。它包括很多非IT系统,如办公地点等。当大的灾难发生时。用户原有的办公场所都会受到破坏。用户除了需要原有的数据、原有的应用系统外,更需要工作人员在一个备份的工作场所能够正常地开展业务。实际上,业务级容灾还关注业务接入网络的备份,不仅考虑支撑系统的服务提供能力,还考虑服务使用者的接入能力、甚至备份的工作人员。

在灾备系统建设中,选择不同的类型。应该综合考虑数据与应用系统的重要性、业务关联度、技术成熟度、基础设施条件、成本和管理维护等一系列因素。

3 灾备技术与发展趋势

一般来讲,灾备系统可以分为数据级容灾、应用级容灾和业务级容灾。数据容灾是基础和前提,只有保证数据能及时、完整地备份或复制到灾备中心,才能在灾难发生时及时恢复受灾业务。数据级容灾可以允许系统在一定时间内的数据量丢失,只要系统能够通过备份或复制的数据将系统恢复起来。数据容灾的技术包括数据存储技术、数据复制技术和数据管理技术等。应用级的容灾要求从应用层面上实现对系统容灾,要求对数据的丢失量为零,实现信息系统保持业务连续性、不间断服务,因而对系统的软、硬件的要求都比较高,是一种比较高的容灾方案。应用容灾包括灾难检测技术、系统迁移技术和系统恢复技术等。业务级容灾则对技术和其它方面的要求更高。本文针对数据级容灾介绍主流的灾备技术。

3.1数据存储技术

灾难备份的一项主要技术是数据存储技术。数据存储备份就是把数据从生产系统备份到存储备份系统中的存储介质的过程。因此,存储优化是提高灾难备份系统性能的重要指标之一。目前,比较通用的技术有NAS(Network Attached Storage,网络附加存储)和SAN(Storage Area Network,存储区域网络)。

NAS是将存储设备连接到现有的网络上,提供数据和文件服务。NAS服务器一般由存储硬件、操作系统以及其上的文件系统等几个部分组成。NAS实现简单,建立方便,设备不依赖于操作系统,数据的存储和处理功能分离,价格较低。SAN是通过特定的互连方式连接的若干台存储服务器组成一个单独的数据网络。 SAN的硬件基础设施是光纤通道,由3部分构成:存储和备份设备(包括磁盘阵列和磁带库等)、光纤通道网络连接部件(包括交换机、HBA卡、光缆线、集线器、光纤通道与SCSI间的桥接器等)和应用管理软件(包括备份软件、存储资源管理软件、设备管理软件等)。SAN是一种特殊的高速网络,连接网络服务器和诸如大磁盘阵列或备份磁带库的存储设备,SAN不依赖于LAN,允许任何服务器连接到任何存储阵列,可以提供大容量的存储数据服务。与NAS相比,SAN的成本较高。NAS、SAN的技术成熟、优缺点也很明显,不再赘述。

近来日趋发展的IP存储(storage over IP,SOW)技术,在IP网络中传输数据,使得服务器可以通过IP网络连接SCSI设备,将IP技术与SAN网络结合起来,使IP SAN可以和IP网络完全整合。

3.2数据复制技术

数据复制技术即数据镜像技术。与数据存储技术相比,数据复制技术则是通过不断将生产系统的数据复制到另外一个不同的备份系统中,以保证在灾难发生时,生产系统的数据丢失量最少,它是灾备的核心和主流技术。

根据数据复制的层次,数据复制技术的实现可以分成以下几种:

(1)基于存储(磁盘)系统的数据复制:通过存储系统内建的固件(firtnware)或操作系统,利用IP网络或DWDM、光纤信道等传输接口连接,将数据以同步或异步的方式从本地的存储系统复制到远端的存储系统。主要产品包括EMC的SRDF、HDS的TrueCopy、IBM的PPRC等。这种方式优点是独立于主机平台和应用,适合于主机和业务系统很多、较复杂的环境,具有较高的性能和可靠性,其缺点是成本昂贵,而且还要受制于单一的设备厂商,通常必须采用同一厂家的存储平台,甚至是同一系列的存储产品。

(2)基于主机(操作)系统的数据复制:利用生产、灾备中心主机系统通过IP网络建立数据传输通道,通过主机数据管理软件实现数据的远程复制。主要产品包括主机厂商和一些第三方软件公司提供基于主机的数据复制方案,如IBM的XRC软件、BakBone的 NetVault Replicator和Verims的wR软件等。主要优点是不依赖于底层存储平台,可提供多种不同的方案,基于网络而没有距离限制:主要局限性是需要同种主机平台,占用大量的主机的资源,不太适合多个系统、多种应用的灾备等,效率和管理上也存在一定问题。

(3)基于数据交换层的数据复制:这种方式的复制技术是伴随着SAN的出现引入的,即在SAN的交换层上实现数据复制。实现方式可以通过专有的复制服务器实现,也可以通过存储局域网(SAN)交换机,将数据同步的复制到远端存储系统中。这种方式正在发展之中。

(4)基于数据库的数据复制:利用数据库自身提供的复制模块,通过本地和远程主机间的日志归档与传递来实现两端的数据一致。比如Oracle的Data Guard和SQL Server的Mirror等。优点是不依赖于其它软件和底层存储平台,有较好的兼容性,无需增加额外硬件设备,可支持异构环境的复制等,缺点是对数据库的版本和操作系统平台有特定要求,不能以一种技术实现多种应用的数据复制。另外,因本地应用程序向远端复制的是日志文件,需要远端应用程序重新执行和应用才能生产可用的备份数据。

上述几种技术除了基于数据库的数据复制外,其他技术都具有同步和异步两种复制方式。同步数据复制就是将本地生产系统的数据以完全同步的方式复制到备份系统中。由于发生在生产系统的每一次I/0操作都需要等待远程复制完成才能返回,这种复制方式虽然可能做得数据的零丢失,但是对系统性能有很大的影响。异步数据复制则是将本地生产系统中的数据在后台异步的复制到备份系统中。这种复制方式会有少量的数据丢失,但是对生产系统的性能影响较小。在灾备中心的建设过程中,应根据应用需求和数据复制技术的优缺点选择不同的灾难备份策略。

3.3技术发展趋势

随着信息化的深入发展,存储容量的急剧膨胀。数据和信息的重要性已经远远超越了系统设备的重要性。在当前数据量剧增的情况下,灾备技术也呈现不断发展的态势,取得一些新的进展,体现在以下几方面。

(1) 存储虚拟化(Storage Virtualization)技术。该技术是将系统中各种异构的存储设备映射为一个单一的存储资源,对用户完全透明。达到屏蔽存储设备异构和主机异构的 目的。通过虚拟化技术。用户可以利用已有的硬件资源,把SAN内部的各种异构的存储资源统一成对用户来说是单一视图的存储池(Storage Pool),而且采用Striping、LUN Masking、Zoning等技术。用户可以根据自己的需求对这个大的存储池进行方便的分割、分配。保护了用户的已有投资,减少了总体拥有成本 (TCO)。另外也可以根据业务的需要,实现存储池对服务器的动态而透明的增长与缩减。

通过存储虚拟化技术可实现数据的远程复制,以确保 灾备中心与生产中心的数据保持同步以实现数据容灾。存储虚拟化技术可以在不同层面实现,如在智能交换机层面、存储层面或增加第三方设备来实现。采用虚拟存 储技术进行数据复制同样也可以有同步复制方案和异步复制方案,需要根据具体的需求选择合适的产品。

(2)重复数据删除技术。该技术通过寻 找不同数据块中的冗余数据并删除这些重复的数据来对数据进行压缩。某些重复数据压缩技术甚至实现了20:1的压缩比。通过重复数据删除技术不但能解决单数 据中心中多副本占用空间的问题,还可以减少传输备份数据所需要的带宽。重复数据删除技术主要分为基于软件的重复数据删除和基于硬件的重复数据删除两种方 式。这种技术已经应用于灾备存储中,如EMC的Avamar和Veritas的NetBackup等。

(3)持续数据保护(CDP)技 术。CDP是一种在不影响主要数据运行的前提下,实现持续捕捉或跟踪目标数据所发生的任何变化,并且能够恢复到此前任意时间点的方法。CDP系统能够提供 块级、文件级和应用级的备份,以及恢复目标的无限的任意可变的恢复点。目前该技术尚处于发展阶段,随着技术的不断成熟和完善,将会具有强大的生命力。

4 结语

在 信息化大发展的今天,数据(信息)的价值已经远远超过了计算机系统本身,同时,提供连续服务能力已经成为灾备系统发展的核心问题。随着人们对灾备问题的越 来越重视以及信息技术的发展,灾备技术取得了较大的进展。应用范围和领域也越来越广泛。总体而言,灾备建设是一项复杂的、长期的系统工程。开展国土资源信 息系统的灾备建设,既要考虑政策法规导向和规范制度建设,也要根据实际需要选择合适技术方案,这将在后续文章中进一步探讨。