深圳国税同城异址容灾备份项目建设实践

信息技术的快速发展和社会信息化建设力度的不断增强,对信息数据的完整性和系统运行的持续性提出了更为严格的要求。信息数据海量增长、信息系统支撑的业务高度集中和信息存储网络化,不但使得信息数据的重要性日益凸显,同时也加大了各类风险的发生概率和信息资产的脆弱程度。一旦遭受水灾、火灾、地震、战争、恐怖袭击等大型灾难,正常社会秩序受到冲击,各种矛盾和冲突必将产生,后果严重,比如经济损失、社会动荡、政府失效等。对于公众机构,如何在威胁面前保护信息化的资产,提供不间断的政府服务是当局者须认真考虑的问题。近几年,随着我国税务信息化工作的深入开展,主要核心业务系统已经逐渐实现省级集中,税收征管、纳税服务、行政后勤等主要税收工作的集中程度大幅提高。如何保障升级数据中心持续、稳定运行已经引起高度关注,容灾备份建设已经成为当时税务信息化的重点工作之一。

一、 “金税”工程三期对容灾备份体系建设的规划

按照“金税”工程三期规划,总局在广东南海建成南海数据中心。南海数据中心作为总局数据中心的灾备中心,主要服务范围包括总局和71个省(自治区、直辖市、计划单列市)级国税局和地税局的数据中心,其最终目标是为各单位提供由总局统一组织开发的主要核心业务系统的应用级灾备,为总局提供核心业务系统以外的其他系统的数据及灾难备份服务。

南海数据中心面向总局的灾备恢复内容,具体包括提供征收管理系统、行政管理系统、决策支持系统以及与核心业务系统相关的部分外部信息系统的应用及灾难备份恢复和CA/RA认证系统的应用级恢复,对其他系统则提供数据机灾难备份恢复服务。面向省级国、地税局的恢复,具体包括提供征收管理系统以及与核心业务系统相关的部分外部信息系统的应用及灾难备份恢复,对其他系统提供数据机灾难备份恢复服务。

在灾难恢复能力方面,南海数据中心的建设目标是保证北京数据中心和两个以上省级数据中心同时发生灾难时,具备核心业务应用系统的接管能力,同时还要保证为其他未发生灾难的总局或省级单位提供数据级容灾备份。

在灾备恢复等级规划方面,南海数据中心的设计必须达到国家规定的灾难恢复等级五级标准,其灾难恢复时间和恢复点目标为核心业务应用系统灾难恢复时间(RTO)≤48小时,恢复点目标(RPO)≤24小时。

二、 深圳国税同城异址项目建设实践

1、 深圳国税信息系统建设概况

深圳国税信息系统应用架构基本采用了三层架构,数据的存储和保管全面实现市级大集中。主机以IBM小型机和PC服务器为主,存储设备有EMC DMX和IBM SHARK,备份设备有IBM 3584磁带库,数据库基本使用ORACLE9I,应用服务器使用WEBLOGIC。

2、 深圳国税信息系统运行存在风险分析

(1) 单点故障的风险。在避免信息系统单点故障方面,目前已经采取了必要措施,重要系统应用服务器采用WEBLOGIC集群方式,数据库的部署采用ORACLE RAC方式,数据存储采用RAIDO+1或RAID5保护方式。但是,仍然存在单点故障的风险,如存储设备本身和生产中心机房。

(2) 本地磁带库进行数据备份、恢复的风险。目前数据备份做法是对本地数据通过TSM每天进行两次增量备份,每周进行两次全量备份,每天的备份磁带复制一份通过邮递方式异地存放。这种做法存在风险包括:磁带备份的数据恢复时间较长;当机房出现重大自然灾害后异地存放的磁带无法进行数据恢复;磁带库备份策略无法快速、灵活地恢复由人为操作失误造成的数据丢失。

3、 深圳国税同城异址容灾备份建设的必要性

(1) 同城异址备份站点建设周期较短,能有效填补时间空挡。总局南海数据中心面向全国国税、地税71个省级单位提供灾备服务,由于涉及省级单位数量多,各地管理水平和技术水平参差不齐,基础设施建设状况有别,因此总局容灾建设无法短期完成。深圳国税目前已有大量的业务系统在运行,如何在总局容灾建设完成之前保障数据的安全和业务的连续成为一项重要的工作。同城异址备份站点建设因建设周期较短,可以有效填补时间空挡。

(2) 同城异址备份站点能够实现本地自行开发系统的容灾备份。南海数据中心为各省提供的容灾服务只限于总局推广的业务系统,深圳国税自行开发的重要应用系统如EAI、银税、网上业务系统等不在总局服务范围内。同城异址备份站点能够实现这些系统和数据的容在备份,室总局南海数据中心的有益补充。

(3) 同城异址备份站点既能实现应用级的容灾备份,又可作为第二生产中心分担运行压力。同城异址备份站点因为与生产中心、区分局办税服务大厅的距离相对接近,对容灾备份建设的网络资源要求比较低,比较容易实现应用级的容灾备份和灾难后的快速恢复;同时,备份站点建成后,还可由备份站点提供数据分析、查询、开发测试等服务,甚至还可作为第二生产中心,运行部分业务系统,与主生产中心互为补充。

4、 深圳国税同城异址容灾备份建设的目标及原则

深圳国税同城一直容灾备份建设的目标:一是保障数据安全,备份站点能为生产中心保留一份完整的、可供灾难恢复的数据;二是保障灾后业务及时恢复,灾难发生后,备份站点能在确定的时间内接替生产中心的运行,并重新提供业务服务;三是提高灾难抵御能力,减少灾难打击造成的经济损失和社会影响。

深圳国税同城异址容灾备份建设遵循的原则:一是统筹规划,建设过程中做好资源整合,坚持统筹规划、分步实施;二是等级保护,针对面临的风险和各项业务停顿所带来的损失进行分析,确定灾备渠道和业务恢复时间目标,选择合适的灾备方案;三是资源共享,充分利用现有资源;四是平战结合,在不影响灾难备份与恢复的前提下,充分利用灾备中心的各类资源,开展培训、演练、开发、数据应用等业务。

5、 深圳国税同城异址容灾备份实施情况

(1) 系统架构及设备部署。深圳国税同城异址容灾备份系统架构如图2所示。在数据复制工具软件选型方面,经多款工具软件试用比较,最后采用飞康公司的CDP持续数据复制软件。在设备部署工作中,首先在生产中心配置一台装有复制软件的飞康CDP管理服务器,实现生产系统数据实时保护,同时向灾备中心实时复制数据;然后在灾备中心配置一台装有数据复制软件的管理服务器,实现远程数据复制和快速恢复。

(2) 本地数据的保护。采用磁盘镜像保护方法,实现本地数据保护。通过IBM操作系统提供的逻辑卷管理镜像功能实现“原主存储系统”到“飞康CDP存储系统”的本地数据实时保护,这种保护模式可以有效应对因本地存储设备的单点故障引起的数据灾难。在“主存储”系统发生设备故障时,飞康CDP系统可以立即提供存储服务,接管生产存储。通过飞康CDP设备提供的逻辑快照功能,还可获得多达256个全备份历史点。这种多备份历史点的模式可以应对任何数据逻辑故障,包括数据库逻辑错误、人为错误操作和病毒等引起的数据丢失、文件丢失、数据库崩溃等。

(3) 远程数据复制和容灾。在生产中心和容灾备份站点之间,通过数据复制工具实现生产数据远程实时容灾备份,当生产环境发生在难后,备份站点完成业务接管。

图2 深圳国税同城异址容灾备份系统架构

(4) 容灾备份恢复演练。演练在容灾建设工作中必不可少,通过演练可以帮助管理人员提高操作水平,提高应急恢复速度;演练工作同时需要控制风险,降低对生产系统的影响。演练实现方式有两种:一是定期或随时利用容灾中心的飞康CDP所提供的多点快照,加载快照到容灾主机,同时启动容灾数据库和应用进行演练和验证;二是切断复制链路,直接提取容灾中心的数据盘,启动容灾中心应用,业务演练验证后既可以将生产端数据同步于灾备端数据,消除灾备端由与演练产生的垃圾数据,又可以将灾备段数据同步于生产端数据,保留由于演练产生的真实数据。

6、 深圳国税同城异址容灾备份建设特点及效益评估

深圳国税同城异址容灾备份建设,具有以下几个特点:一是不仅能够完成硬件设备出现故障后的业务恢复,而且还可以实现最为常见的数据丢失和人为错误出现后的业务恢复;二是生产中心与灾备中心的主机和存储设备不受生产厂商和型号的限制,主备中心平台无紧密关联;三是数据复制通过TCP/IP协议传输,数据分割为较小的单元,大幅节省网络传输资源;四是可以生成256份不同时间点的数据拷贝,这些虚拟的数据拷贝可供其他应用系统使用,如软件测试、查询与备份;五是采用差异比对技术,大幅提高容灾演练、容灾系统恢复过程的效率和可操作性,复杂过程简单化;六是采用集成的容灾备份管理和全图形化的容灾备份系统操作界面,原本非常复杂的容灾备份系统管理变得极其简单。

深圳国税同城异址容灾备份建成使用后,取得了良好的效益:提高了同城异址容灾备份能力,能够防御一定级别的灾难,确保信息系统在灾难发生时可以继续提供服务;灾备中心通过临时租用电信沙河机房的方式,有利于容灾工作网络架构的建设,节省了网络资源的运营费用,同时可以充分利用运营商专业的机房管理服务;采用的备份技术能够支持当前各种品牌、档次的主机、存储设备,在主、备站点灵活选择设备可以大幅降低硬件投入;多份不同时间点的数据拷贝可以同时用于开发测试、数据应用、数据归档、数据备份等工作,大幅减少了存储资源的资金投入;本地数据保护的备份功能避免了以前磁带库备份遇到的各种困扰,减少了备份设备的资金投入;系统总局投入成本低,而且维护简单,灾难恢复演练和实时操作提供图形界面,操作简单便捷,大幅降低了后期系统维护资金的投入。

7、 深证国税未来工作规划

(1) 建立和完善业务连续性管理体系。管理体系包括灾难事故的预防机制和应急机制。根据总局“金税”工程三期的指导建议,结合深圳国税同城异址容灾备份建设的实际情况,业务连续性管理体系建设应由易到难、分步实施、不断完善、逐步实现,最终达到全面持续管理。制订、完善用于灾难事件响应和控制突发事件损失的制度、流程和应对措施,包括进行出事响应和紧急处理、损害评估、灾难等级识别、建立和管理应急指挥中心、灾难公告制度等,使得灾难发生后能够快速地恢复业务系统运行和业务运作;制定和完善业务连续性计划,设计、制定业务连续性计划;完成灾难备份系统和业务恢复体系的建设;灾难恢复预案的验证。对容灾备份体系和预案进行测试演练,记录和评估测试演练的结果,验证灾备体系的技术实施可靠性,完善灾难恢复预案,保持业务连续运行能力;灾备系统安全管理。包括运维管理安全、机房物理安全、系统安全、应用安全、网络安全、媒体数据安全和文档安全等;灾备系统运行维护和保障。建立完善的运维管理制度,规范生产中心和灾备中心的运维基本操作及切换、演练等操作,制订包括灾备系统集中监控、网络系统监控维护、磁带介质管理、灾备服务器维护、运行支持热线和服务商管理的统一变更流程。

(2) 沙井备份站点建设。在沙河电信机房过渡方案基础上,深圳国税备份站点将选用宝安国税沙井分局办公大楼,在该大楼建设占地面积800平方米的备份机房。沙井备份站点的建设工作将成为深圳国税信息化下一步工作的重点,工作内容包括机房基础设施建设、网络改造、人员组织架构建设、容灾系统建设及维护。备份站点建成之后,将实现更多业务系统的应用级备份。

(作者单位:戴文忠 深圳市国家税务局信息中心主任

肖昭坚 深圳市国家税务局信息中心综合科科长

王晓明 深圳市国家税务局信息中心设备网络科科长

田仲昊 深圳市国家税务局信息中心系统运行科副科长)