存储专家话容灾系列深入报道

给数据上份保险

数据,是现代企业正常运转的重要依据和企业发展的宝贵资源。如何确保数据安全成为了企业是否具有核心竞争力的体现。对电信行业来说更是如此。但是在现阶段,人们对容灾还存在着许多误区。究竟什么是容灾?怎样合理建立自己的容灾系统?面对业界推出的各种容灾解决方案应该如何选择呢?为了拔开疑云,我们约请了有关容灾专家开辟本专题,从当前对容灾的认识误区入手,分析容灾方案的构建部署,希望能对用户,特别是电信行业的用户建立容灾系统能有所裨益。

    给数据上份保险

      天堂和地狱永远只有一墙之隔。当企业因为信息化带来快捷的服务决策和方便管理时,也必须面对着数据丢失的危险。数据的丢失会中断企业正常的商务运行,造成巨大的经济损失。对电信行业来说,数据的安全尤其重要,其数据不仅是企业发展的资源,而且也是为用户服务的关键依据。同时,电信的拆分和外部的经济环境也加剧了电信的竞争,如何为用户提供全面及时的通讯保障也对电信IT系统提出了高可用性和高可靠性的要求。

      电信业的大部分业务必须依赖于数据处理。数据是否安全成为了电信的命脉。如果没有了数据,电信业务将全部处于瘫痪状态。如果电信的计算机系统非正常停止运转,除了造成巨大的经济损失外,更为重要的是,有可能会失去用户的信任以及一系列赖以生存发展的市场。

      在现代复杂的商业环境中,对电信行业来说,其关键业务不允许出现哪怕是1%的灾难威胁,因为建立容灾系统势在必行。VERITAS认为:建立容灾系统的目的不是备份,而是恢复。根据Disaster Recovery Jounal的调查表明,在受到灾难袭击的5个公司中,将有2个公司无法从灾难中重新开始工作。而那些即使是重新开张的公司中,也将有至少1个将在两年后关张。灾难恢复的成功与否决定着灾难袭击后公司的生存与否。不但将给企业带来巨大的经济损失,而且还会影响企业的声誉,降低企业的竞争力。

      从灾难发生的原因来分,主要有两种类型:自然灾难和人为灾难。自然灾难主要包括:飓风、龙卷风、地震、洪水、火灾等。人为灾难是指人们在平时可能意识不到的灾难,它潜伏在人们的日常工作过程中,是对IT架构及其相关组件操作、运行过程中积累下来的灾难,它包括计算机/网络犯罪、计算机病毒、掉电、网络/通信失败、硬件/软件错误和人为操作错误。

      从广义上讲,任何提高系统可用性的努力,都可称之为容灾。但是现在人们谈及容灾往往只是针对慢性容灾而言。在系统设计中,企业一般会考虑做数据备份和采用主机集群的结构,因为它们能解决本地数据的安全性和可用性。这是针对慢性容灾的本地解决方案,如果当某台主机出现故障,不能正常工作时,其他的主机可以替代该主机,继续进行正常的工作。目前人们所注意到的容灾,大部分也都只是停留在本地容灾的层面上。但是作为电信部门来讲,光有本地容灾是远远不够的。其关键业务应用,如计费系统,客户服务系统,运营帐务系统等,必须要防范地震、战争等自然灾难。因此电信业应该采用异地容灾的保护措施。

      一般来说,为了保护数据安全和提高数据的持续可用性,企业要从RAID保护、冗余结构、数据备份、故障预警等多方面考虑。因此一套完整的容灾方案应该包括本地容灾和异地容灾两套系统。对于电信行业来说,更是如此。

一切从备份开始

  在今天的经济环境下,大部分厂商和企业都认识到了数据安全的重要性。但在如何保障数据的安全上,有人认为:数据复制就是容灾,只要把数据复制了就万无一失能够应付任何灾难了,也有人认为:建立了一套容灾系统就不用备份数据了。实际上,数据备份是容灾的基础,一切容灾系统的建立都是以数据备份为基础的,但是仅有数据备份是远远不够的。那么,什么是全面的容灾方式呢?专家指出,全面的容灾方式应该是备份+数据复制+远程容灾.特别对电信行业来说,其计费中心,客户服务系统,运营帐务系统等关键业务应该实施多种备份以防止灾难。

      数据备份,只是指为防止系统出现操作失误或系统故障导致数据丢失,而将全系统或部分数据集合从应用主机的硬盘或阵列复制到其它的存储介质的过程。传统的数据备份主要是采用数据内置或外置的磁带机进行冷备份。早在1990年,VERITAS就开始采用这种方式为用户提供数据解决方案。但是这种方式只能防止操作失误等认为故障,而且其恢复时间也很长。随着技术的不断发展,数据的海量增加,不少的企业开始采用网络备份。网络备份一般通过专业的数据存储管理软件结合相应的硬件和存储设备来实现。

      目前比较常见的备份方式有:1.定期磁带备份数据。2.远程磁带库、光盘库备份。即将数据传送到远程备份中心制作完整的备份磁带或光盘。3.远程关键数据+磁带备份。采用磁带备份数据,生产机实时向备份机发送关键数据。4.远程数据库备份。就是在与主数据库所在生产机相分离的备份机上建立主数据库的一个拷贝。5.网络数据镜像。这种方式是对生产系统的数据库数据和所需跟踪的重要目标文件的更新进行监控与跟踪,并将更新日志实时通过网络传送到备份系统,备份系统则根据日志对磁盘进行更新。6.远程镜像磁盘。通过高速光纤通道线路和磁盘控制技术将镜像磁盘延伸到远离生产机的地方,镜像磁盘数据与主磁盘数据完全一致,更新方式为同步或异步。

      那么,数据备份的目的是什么呢?其关键是在于保障系统的高可用性,即操作失误或系统故障发生后,能够保障系统的正常运行。因此,企业不会只单独购买备份设备,还会装备将其备份数据从介质转移到系统的设备。这样,数据备份才有意义。

      因此,仅仅进行数据备份是远远不够的。容灾系统必须要考虑到系统恢复的问题。现在不少企业也意识到了这一点,采取了系统定期检测与维护、双机热备、磁盘镜像或容错、备份磁带异地存放、关键部件冗余等多种灾难预防措施。这些措施一般能够进行数据备份,并且在系统发生故障后能够进行系统恢复。但是这种一般的措施只能处理计算机单点故障,对区域性、毁灭性灾难则束手无策,也不具备灾难恢复能力。

      因此对于电信行业来说,仅有这些措施还不够,其关键业务必须实施远程容灾保护。远程容灾系统具备应付各种灾难特别是区域性与毁灭性灾难的能力,具备较为完善的数据保护与灾难恢复功能,保证灾难降临时数据的完整性及业务的连续性,并在最短时间内恢复业务系统的正常运行,将损失降到最小。其系统一般由生产系统、可接替运行的后备系统、数据备份系统、备用通信线路等部分组成。在正常生产和数据备份状态下,生产系统向备份系统传送需备份的数据。灾难发生后,当系统处于灾难恢复状态时,备份系统将接替生产系统继续运行。此时重要营业终端用户将从生产主机切换到备份中心主机,继续对外营业。

灾难恢复不是梦

  容灾,对于IT而言,就是一个提供能防止各种灾难的计算机信息系统。当政府、企业、商家的核心计算机系统在遭受如:火灾、水灾、地震、战争、人为破坏等不可抗拒的灾难和意外时,能够及时恢复系统的正常运行。因此,容灾的目的在于及时恢复系统运行而不在于数据复制。

      复制,顾名思义就是将数据库中的数据拷贝到另外一个不同的物理点上。数据复制技术是容灾系统的核心。数据复制,主要有同步数据复制和异步数据复制两种。

      同步数据复制,指通过将本地生产数据以完全同步的方式复制到异地,每一本地IO交易均需等待远程复制的完成方予以释放。异步数据复制则是指将本地生产数据以后台同步的方式复制到异地,每一本地IO交易均正常释放,无需等待远程复制的完成。

      同步复制实时性强,灾难发生时远端数据与本地数据完全同步。但这种方式受带宽影响较大,数据传输距离较短。异步复制不影响本地交易,传输距离长,但其数据比本地数据略有延迟。在异步复制环境中,对于所有应用最关键的就是要确保数据的一致性。那么企业究竟应该如何选择复制的方式呢?一般来说应该结合自己的备份方式和容灾方式来考虑。对于电信行业来说,应该两种方式接合采用,这样才能保证其关键数据万无一失。

      在数据复制的同时,还需要管理软件对数据复制状况进行动态监测。目前一般IT厂家都提供了远程动态监测软件,当主机/应用发生故障时,会马上监测到,将故障情况向管理员报警,然后根据策略自动或手工快速地将应用进行切换,确保复制数据的正常进行。VERITAS的Volume Replicator (VVR)就是通过广域网远程连接,采用可靠的连接和监听协议,保证远程备份站点与本地逻辑卷数据的一致性。

      数据复制对数据系统的一致性和可靠性以及系统的应变能力具有举足轻重的作用,他决定着容灾系统的可靠性和可用性。那么企业究竟搭建什么样的容灾系统呢?这就需要根据企业自身状况来定了。同样是容灾系统,如果是防火灾,则容灾中心距离数据中心只需要几百米就可以了。如果要是水灾,则要求它们之间的距离在数公里以上。如果要是预防地震的话,则需要保持几百公里的距离。此外,不同的地域需求也有不同,例如在北京,就可以不用考虑水灾的问题,而在有的地区,地震就不用考虑。

      但是在企业组建容灾系统的时候,以下几点是必须考虑的:
1、 容灾系统应具有开放性,不依赖特定硬件系统。
2、应支持广泛的传输介质,支持TCP/IP网络更佳。
3、考虑到容灾能力和对应用系统性能的影响,容灾方案不仅要支持近距的、同步的数据容灾,还必须能支持远程的、异步的数据容灾。
4、对于异步数据容灾,数据复制不仅仅要求在异地有一份数据拷贝,同时必须保证异地数  据的完整性、可用性。
5、容灾系统本身应具备各种容错考虑。
6、应支持灵活多样的容灾结构。
7、完善的容灾系统应该考虑实用的灾难恢复手段。

恢复演习不可少

  无论采取何种方式复制数据,容灾的最终目的都是在于灾难发生后能够在企业可以接受的时间内快速恢复系统的正常运行。那么企业建立的系统在灾后能不能快速恢复呢?这就需要企业系统在正常运行时能够进行灾难恢复演习,只有这样才能保证容灾系统确实可行。

      那么企业怎样制定灾难恢复演义计划呢?一般来说要按照一下几个步骤进行:首先,制定计划。灾难恢复演习不能以停机为代价,更不能够演习之后系统无法正常运行,造成生产量的降低和客户形象的损失。制定灾难恢复计划从预算和时间方面来考虑。企业可以请设备供应商协助制定。VERITAS为客户提供的容灾解决方案可以轻易自动实施备份中心和主机中心的切换,即使如此,可以应该定时进行恢复演习,看备份中心究竟能否恢复系统。

      二要明确问题。建立实际的灾难恢复计划时一个非常复杂的过程,而且企业情况千差万别。所以企业一定要分析清楚:什么是最大的风险?企业系统对那些灾难最为敏感?系统停机时对每个部门的影响是个什么样子?同时企业要进人员分工。当发生灾难时,谁将负责数据恢复?谁负责监控设备?谁负责与设备供应商联系?这些都必须在演习中明且分工,并且按照计划执行。

      三要定时不定时进行演习。仅仅制定出一个计划是不够的。不论计划多么严密,必须对其进行测试??不是一次,而是经常测试。在现在复杂的商业环境中,企业的容灾系统必须更得上环境的变化。恢复演习也应如此。企业是否开办了新的业务?是否有新的部门加入到了系统之中?系统恢复小组成员是否变化?这些都是企业在演习中应该考虑的重要因素。

      那么企业怎样确定恢复演习的频率呢?什么时间进行恢复演习,怎样进行恢复演习?这就需要企业对自己的系统进行风险评估。和其它项目一样,建立一个灾难恢复计划先要从了解需求开始。要了解灾难的薄弱环节有哪些,这些灾难发生的可能性有多大,如果发作的话,会给公司带来多大损失,各部分需要多久能恢复正常。以此来计算公司进行恢复需要的花费。 

      那么,什么是灾难恢复计划呢?一个完整的灾难恢复计划应该包括创建一个备份,记录完整、正确的公司数据,以便恢复系统。对于电信行业来说,其最佳状态是每个设备都有备件,但这样投资太大,浪费严重。因此可以建立一个备份站点是现实可行的方法。

      总的来说要做到灾难恢复,首先备份系统时要做到满足系统容量不断增加的需求,并且备份软件必须能支持多平台系统。当网络上连接上其它的应用服务器时,对于网络存储管理系统来说,只需安装支持这种服务器的客户端软件即可将数据备份到磁带库或光盘库中。其次,网络数据存储管理系统是指在分布式网络环境下,通过专业的数据存储管理软件,结合相应的硬件和存储设备,来对全网络的数据备份进行集中管理,从而实现自动化的备份、文件归档、数据分级存储以及灾难恢复等。

轻松备份 安全防灾??“上海热线”存储解决方案扫描

  前面我们介绍了人们对备份、容灾的一些错误认识,下面我们将去“上海热线“了解一下他们的解决方案。

      “上海热线”开办于1996年,现在拥有信息资源点176个,各类应用服务300个,每天访问人次50万,拥有固定用户80余万。“上海热线”已经成为了上海地区乃至国内最大的城域信息网。为满足日益扩大的业务处理需求, “上海热线”对原有系统进行了扩容。扩容后的系统,后台采用3台Sun E5500服务器作为Oracle数据库服务器, 通过光纤接到外围硬盘阵列上, 前台采用若干台Sun E420 作为POP和IMAP服务器, 所有服务器都通过Catalyst5500连接在一起. 前端服务器通过两个交换机以千兆带宽连接到骨干网上。

      扩容后的系统对数据可用性的要求提出了新的要求。首先有一套高效稳定的备份方案, 能够对服务器上的Oracle数据文件和InterMail的相关文件进行备份; 其次, 希望具有本地HA的能力, 当一台服务器宕机时, 其它服务器能够接管它的任务,保证关键业务的24X7服务; 最后, 为了还要具有异地容灾的能力。上海热线需要一套完整的数据存储系统解决方案, 能够满足可用性,高可靠性和可扩展性的需求.

      根据需求, 上海热线采用了VERITAS的备份+容灾的数据解决方案。

      上海热线IT系统需要的是建立一个能够快速备份邮件系统和操作系统的备份方案。前端InterMail服务器和Queue服务器主要需要日志备份,后台服务器需要备份Oracle数据文件, Archive Log, Log文件,InterMail消息文件和日志。由于其主要业务繁重,所以备份不能干挠主机和占用系统资源。因此其备份采用了一台Sun E420作为备份的Master服务器,连接一台L1000磁带库的方案。在备份管理上,上海热线采用了VERITAS 的NetBackup 管理软件,并在每台需要备份的主机上安装了NetBackup的Agent软件,这样不仅将备份的管理集中在了主服务器上,而且能够对备份的数据流进行监控。同时缩小了系统管理员的工作量,提高了备份效率。据统计,其备份系统每小时能备份百兆到千兆的数据,大大缩短了备份时间。同时,NetBackup还能够设置备份数据流的带宽,使用户在进行备份作业时,对业务的影响降低到最小。

      为了防备一些不可抗拒的因素如地震、雷击等把整个中心的一些关键系统破坏,上海热线在凉城建立了一个具有远程容灾功能的备份中心。当计算中心遭受毁灭性破坏时,可由备份中心接管部分或所有的业务处理。

      上海热线首先构建了凉城备份中心主机网络存储系统,安装了相应的应用系统,这些可基本上与漕溪节点的环境一致。其次, 为保证远程数据同步复制的实现, 两个节点间通过DDN专线互连, 两个节点之间采用VERITAS的数据复制管理软件VERITAS Volume Replicator(VVR)。VVR采用可靠的连接和监听协议,保证远程备份站点与本地逻辑卷数据的一致性。该软件能容忍网络延迟:在同步模式下,若网络发生堵塞,可自动切换到异步模式,当网络恢复后,再重新同步。为了能够监测应用系统的运行情况,并能够在灾难发生时实现应用系统从漕溪中心到备份中心的切换,上海热线选用专门的VERITAS 的Global Cluster Manager广域网集群管理软件来实现多集群的管理和应用系统的容灾。

      在正常情况下,漕溪中心和凉城中心的系统均处于运行状态,但Mail业务处理系统只在漕溪中心运行;同时,业务系统对数据的任何修改,会实时同步地复制到凉城中心。当漕溪中心的某些部件发生故障,产生故障的机器上的应用系统会自动地由VCS快速切换到漕溪中心的其他机器,整个系统正常运行。当灾难发生,导致漕溪中心整个系统瘫痪时,Global Cluster Manager会马上监测到这种异常情况,及时向管理员发送各种警报,并按照预定的规则在凉城中心启动整个业务应用系统。漕溪中心的计算机网络系统修复后,VVR可将凉城中心的当前数据复制回漕溪中心,然后将应用系统从凉城中心切换回漕溪中心,凉城中心的系统重新回到备份状态。这样,上海热线就能够很好应付各种软硬件故障、人为或自然灾害对计算机处理系统的影响,保护业务系统的不简断运行。

      现在,上海热线五期扩容和异地容灾工程已经完成。自系统投入运行以来, 运行正常, 系统性能良好, 达到了预期目标. 通过VERITAS数据存储解决方案,不但提高了数据的存储性能, 系统可以达到7X24不间断运行, 满足了高可靠性的原则. 该方案的顺利实施, 成功地解决了系统应用数据量大, 数据安全和可靠性不高的问题,开拓了市场,产生了巨大的社会效益和经济效益.

一线跨南北 安全无忧患— 某电信公司远程容灾方案扫描

  前面我们讲过容灾,对于IT而言,就是一个提供能防止各种灾难的计算机信息系统,使得用户的核心计算机系统(主点,如北京机房)在遭受如:火灾、水灾、地震、战争、人为破坏等不可抗拒的灾难和意外时,能够及时恢复系统的正常运行。要做到这一点,就必须实施远程异地容灾解决方案,即在异地建立一个备份系统,将主点的数据实时复制到备用系统。

      下面这个电信公司,其网管系统必须要具备高可用性和灾难恢复功能,以保证它可以不间断地对所管理的网元和子网做故障/告警管理、配置管理、安全性管理和性能管理等,从而保证被管理网络的持续不断的正常运行。

      该电信公司采用了VERITAS公司的远程容灾解决方案。其主点为网管中心的北京机房,它运行该网管系统对相关传输网络进行管理,同时,为了能够在灾难发生后(如主点北京机房出现严重故障或灾难),网管系统依然可以不间断地管理相关网络,该公司在广州的网管中心建立了一个备用系统,以便适时接管网管业务。

      该系统由四个部分组成:VERITAS Volume Manager(VxVM)、VERITAS Volume Replicator(VVR)、VERITAS Cluster Server(VCS)、Global Cluster Manager(GCM)。VxVM3.2提供了一个在线数据存储管理基础,给系统盘和数据盘做本地的镜像和其它RAID功能,并可在线改变Volume的大小。VVR3.2则在北京和广州之间做数据复制,将数据库和应用数据作异步复制。VCS2.0是管理本地集群(单点集群)的,他将网管所涉及的所有软硬件资源做集中的管理,并为GCM提供基础数据接口。GCM1.2主要管理由北京和广州两个Site组成的广域集群,集中管理广域范围的网管应用,并结合VVR3.2做应用级的容灾,在北京和广州之间做自动的或管理员确认的或计划内人工发起的网管应用切换。

      由于该公司的系统是一个实时性很强的高性能网管系统,其主点的应用性能非常关键和重要。为此,VERITAS为其采用了异步复制数据的方式较。在数据复制的同时,VERITAS的GCM还可以在北京和广州之间建立心跳线以检测北京和广州两地的系统,一旦北京网管系统发生故障,GCM将自动或由系统管理员确认或手工将网管应用在广州接管运行,并将应用数据从广州向北京复制。由此保证网管系统的不间断运行。另一方面,对于计划内的停机情况,如北京机房的地点整体搬迁,也可以手工将网管系统切换到广州运行,直到北京的新机房建立好后再将网管系统切换回北京。

      该电信公司在今年五月份开始实施这一容灾解决方案,并很快投入使用。该系统投入运行以来, 运行正常, 性能良好。该容灾系统的实施,不但提高了数据的存储性能, 满足了系统7X24小时运行的需求,而且也为公司带来了可观的经济效益。