十分钟内实现IT灾难恢复

2008年上半年,北方联合电力公司采用远程异步镜像(MirrorView)和连续数据保护(CDP)等先进技术,建设了数据中心本地/异地容灾系统。

  奥运前夕,我们对该系统进行了测试和演练,测试链路故障、主机故障、阵列故障、应用系统误操作误删除故障、SAN系统网络及单机设备故障,还进行了生产系统的灾难模拟,并顺利将ERP应用系统切换到容灾中心。所有测试都成功完成,恢复点目标(RPO)和恢复时间目标(RTO) 值达到预先设计的要求。同时上述各种数据保护和切换措施,对最终用户完全透明,用户端不需更改任何设置,即可访问恢复后的应用系统。

  虽然目前还没有出现过真正的故障,但演练和测试让我们有备无患。实践表明,这一方案能够实现苛刻条件下应用和数据的恢复。在此,我介绍一下北方联合电力公司数据中心本地/异地容灾系统建设的经验和体会,供业内外同行参考。

  系统概况

  北方联合电力公司数据中心本地/异地容灾系统主要包括本地机房的近线复制和远程机房的异步复制两个部分。

  容灾中心和总部各采用2台HP主机和2台CISCO 9000系列智能交换机,互为备份,组成高性能、全冗余的存储区域网(SAN)。容灾中心与总部之间直接通过Cisco MDS 9000连接,采用FCoIP协议,链路带宽为622Mbps.

  在总部机房,采用一台EMC CLARiiON CX3-80作为数据存储主阵列,以HP EVA6000作为近线复制存储。采用连续数据保护(CDP)技术,以2台EMC Recover Point 应用装置组成群集,负责把HP主机到CX3-80的写数据重定向到EVA6000上。

  在200公里以外的达拉特电厂,我们建设了容灾中心,主要设备包括1台EMC CLARiiON CX3-20和2台HP主机,为总部机房提供远程的应用级容灾保护。核心技术采用EMC公司的远程异步镜像(MirrorView),结合 CISCO9016光纤交换机的特性,可以由CX3-80直接把生产数据同步到CX3-20上,不增加主机负担。

  建设背景

  北方电力成立后在生产、基建、经营等各方面取得了辉煌的成就,但在市场竞争中面临着具大的考验。随着其它发电公司新机组的相继投产,北方电力发电总装机容量在蒙西电网的比例逐年缩小;平均单机容量小,老旧设备多;发电负荷率较前两年大幅降低,发电量难以保证;再加上员工总额大、负担多等众多因素,使公司在企业核心竞争力方面与其它发电公司存在较大差距。因此,公司决定采用国际先进的信息技术和手段,利用先进的管理思想和理念内部挖潜,向管理要效益,提高公司的管控能力,走出一条能够使北方公司做强做大的健康发展之路。

  四年来,我们按照"统一领导、统一规划、统一标准、统一管理、统一实施"的五统一原则,遵循集团化大集中的管理思想,对公司各个二级单位的信息进行标准化的梳理,逐步建成了覆盖公司本部至25个二级单位的信息化基础平台和信息化应用系统。

  信息标准化方面,依靠公司自身的技术力量,完成了13个发电厂10万以上共54台机组(小机组退役)、总装机容量为1379万KW的KKS设备编码工作,形成了公司统一的设备编码体系;完成了公司统一的物资编码,建立了公司统一的编码标准,形成了统一的物资编码体系。制定了《北方电力信息化建设管理规范》等十个管理制度和标准规范,在行业内处于领先水平。

  IT基础管理方面,建立了公司本部至所属发电厂的622M和155M及本部至各所属单位2M的两张广域网系统,完成了所属新建及老厂的统一标准化局域网建设;建立了SAP开发、测试、生产运行系统及门户、档案、基建MIS等多个管理系统硬件平台。建立了公司Apsec VPN及SSL VPN加密数据通道,实现了公司本部及所属单位的移动办公;完成了公司本部至25个二级单位站点的视频会议系统。

  管理信息系统方面,从2005年3月达拉特电厂试点开始至2007年3月包头第三热电厂验收,共完成了所有(13个)发电厂的生产管理系统 BFS++、实时数据库PI的实施工作,并全部进行了实用化验收;从2006年2月本部及达电试点实施开始,目前已经完成了本部及所属8个电厂的信息门户系统实施工作并进行了实用化验收,2007的7月9日,该项目由电机工程学会主持评审为国内领先水平;采用大集中的方式,在全公司范围内实施了SAP的 ERP项目(财务及预算、物资管理两个模块),并与生产管理系统BFS++实现了接口;公司所有二级单位实施了OA并与本部上下互联,实现了整个公司的全电子化公文流转、合同审批流转以及统一域名下的集团电子邮件等功能;在所有新扩建项目基建过程中(10个基建项目)统一实施应用了基建MIS系统;在本部及5个发电厂推广应用了统一的档案管理信息系统。

  随着各个管理信息系统的实施,信息系统已经成为公司生产经营管理中须臾不能离开的工具,信息系统的容灾备份势在必行。

  技术选择

  通过对公司之前的信息平台及相关技术进行分析,我们认为,传统备份阵列+磁带库的方式可能存在几方面的缺点:一是传统备份恢复时间太长。二是传统的直连存储(DAS)方式,让IT存储系统随着企业的快速成长而变得繁复累赘,因此需要进行系统资源的整合。三是以往用磁带进行备份,不仅占用大量的人力资源,人工操作也容易造成失误。此外,使用磁带备份的数据保护中30%会失败,且难以验证数据的可恢复性。四是阵列发生故障后短时间无法恢复应用系统运行。

  因此,北方电力决定建立一个近线虚拟存储系统,应用系统可以不同的存储设备上透明地切换。近线虚拟存储系统首期主要是对核心数据库小型机的数据进行备份,其次要兼顾OA、门户、基建等服务器的近线数据存储和备份。

  CDP(连续数据保护技术)是一项新兴的技术,也是目前最热门的数据保护技术之一。它可以捕捉到一切文件级或数据块级别的数据写改动,可以对备份对象进行更加细化的粒度的恢复,可以恢复到任意时间点。CDP技术包括两种:一种是准CDP技术(Near CDP),它只能恢复部分指定时间点的数据,有点类似于存储系统的逻辑快照。另一种是TrueCDP,我们称之为真正的CDP,它可以恢复指定时间段内的任何一个时间点。我们的目标是,能够恢复任意时间点的数据。

  此外,我们还考虑到:新的ERP主存储要具有承担数据中心存储池的能力;将主存储设备内的数据连续备份到近端的存储设备上;要求该套系统可以兼容其它厂家的存储产品;当主存储发生故障时可以手动切换到近端备份存储设备;可保障主存储发生故障后数据丢失量不大于10分钟;新系统要支持异构存储环境,可以支持对windows、HP UNIX、AIX、LNIX等操作系统在存储设备上的备份恢复;数据迁移要安全可靠,不允许数据丢失,等等技术因素。

  通过对主流的供应商进行综合考察,我们认为,EMC的解决方案最符合要求。它的CLARiiON CX3存储系统性能不错,应用很流行;它的RecoverPoint软件能够恢复任意时间点的数据;它的MirrorView远程复制软件可以直接在存储设备之间进行,不需要主机,大大减轻主机的负担;它在兼容性和异构支持方面表现都不错。所以,我们最后选择了EMC的方案。现在来看,无论是对技术方向还是供应商的选择,结果都还不错。

  意外效益

  容灾系统实现对信息系统的多重保护,这一点勿容赘述。

  容灾系统给我们带来了另一个收获是,由于容灾系统和生产系统的数据是同步的,我们可以将备份系统用作仿真测试系统。上马新系统时,可以在测试系统上进行,新旧系统并行一段时间后正式切换。例如,我们可以快速地实现整个ERP系统的仿真系统。因为可以恢复任意时间点的数据,所以我们可以在这个系统上做任何的测试,测试完了再把数据恢复回来。今年下半年实施新快速转换的时候,我们本来是要投资购买一个阵列去实现这个功能,但是通过把灾备系统用起来,让我们投资成本节约了200多万。

  下一步,我们将把OA、信息门户等更多的系统整合到主存储中来,充分发挥主存储作为存储池的作用,简化管理,并让更多的系统得到保护;同时将在信息安全、应用系统整合及统一身份认证等方面做进一步的工作。