福建移动BOSS系统备份十年经验谈

几乎所有的企业都会做数据备份,但是数据备份的作用和效果,往往要等需要数据恢复时才能发现。就像买保险,不出险的时候,人们很难体会到保险的价值。因此,对于备份系统的建设,备份策略的执行,很多时候人们并没有像对业务系统那么认真,效果好坏也不为知。中国移动通信集团福建有限公司(以下简称福建移动)业务支撑中心IT经理林志云从2000年开始一直负责备份系统的建设,十年的时间里积累了广泛的经验。通过他的介绍,我们发现数据备份领域有不少鲜为人知的事,不是从事数据备份工作的人很难体会到。

备份不成功时有发生

大多数企业都已经部署了技术先进的备份方案,但很少有企业会执行常规性的可恢复性检测,以验证备份是否可行和成功。实际上,诸多原因可以造成备份系统失败或数据丢失的现象。有些企业等到真正需要那些备份数据时,才发现原来一些重要的数据并没有备份成功,或者虽然当时备份成功了,但后期因种种原因不能成功恢复,直接造成严重的经济损失。

2009年1月19日至2月18日,福建移动采用EMC公司的数据备份评估分析服务,针对其当前BOSS系统数据备份的实际运行情况,进行了为期一个月的评估,测评的结果显示备份的成功率平均高达99.99%,没有达到100%的原因是,2009年2月3日有两台服务器备归档日志出错,该日志已被其他备份任务备份并删除,所以数据实际上已经被100%成功备份,这是一般备份系统很难达到的高度。

无标题.jpg

福建移动BOSS备份任务执行情况评测结果(2009.1.19-2.18)

当前行业内备份系统的平均水平,可以其它两个兄弟省份公司的近期备份评估结果为例,2008年7月8日至7月30日,经过对"甲"公司备份系统进行测试后发现,其中有个服务器不能正常备份,另有一个为营帐数据库BCV(业务连续性卷)做磁带备份的服务器,出现了2次备份失败,而此服务器备份的都是关键数据并且数据量巨大。。评估期间还发现,因机房调整导致备份作业部份监控数据的收集中断,无法得到完整的备份作业监控报告。2009年1月8日至1月20日,在"乙"公司的BOSS备份系统中做备份系统评估时,也发现和"甲"公司类似的问题,还有个别服务器甚至没有执行部份备份任务。

备份系统技术改进无止境

自2000年至今,福建移动的备份系统建设主要经历了四个阶段。

2000年到2003年的第一阶段,福建移动在Oracle数据库引入了RMAN数据库物理备份工具,并率先使用Oracle RMAN备份工具结合EMC Networker备份管理工具进行数据库的在线物理备份管理。

2003年到2006年的第二阶段,福建移动BOSS系统集中化改造完成,并形成了大型集中的数据中心,备份系统结构上利用了SAN网络搭建新型的备份系统架构,实现了备份存储资源的虚拟化,以及全面的LAN-free(数据不经过局域网直接进行备份)备份方式。

福建移动BOSS系统备份发展历程

2006年到2008年的第三阶段,实现了多个远程机房组成一套备份SAN网络,并由一个备份系统管理多个远程系统数据备份,并引入虚拟带库和ATA盘阵作为备份存储介质,通过多级备份存储结构实现自动化的异地备份保存。2007年,福建移动完成了BOSS系统容灾建设,在此基础上,福建移动通过快照数据库的备份,实现了对生产数据库无事务丢失的数据恢复。福建移动的BOSS系统设备分布在同城的4个机房,其中一个机房关键业务数据量少。于是,福建移动将其它三个机房节点采用2对DWDM 2GB光纤打通远程备份通道,形成三个远程节点备份SAN网络,并用一套备份系统管理三个远程系统的数据备份。由于有一个专门的备份SAN网络,就可以减少生产系统SAN网络的不稳定,减少备份过程对主机HBA卡数据流量过高的影响,保证备份方式的灵活性,自动实现异地数据备份与保存。与些同时,福建移动整体上实现根据不同需求进行不同等级的备份。通过引入EMC虚拟带库作为备份存储,虚拟磁带库的RAID技术保证了备份数据的可靠性,从而解决传统磁带库具有高机械故障率的特点。

从2008年开始进入第四阶段,福建移动BOSS建设完成容灾系统,利用容灾端资源进行数据备份。EMC Symmetrix存储阵列的同步数据复制技术,保证了同城模式下容灾端数据与生产端实时同步。这样,可将数据库物理备份放在容灾端的快照数据库进行,降低生产系统资源开销的需求,增强了数据备份的可靠性。同时,能够实现增量备份,能提供历史数据的恢复需求。

备份系统考验人员的综合能力

IT是业务的后台,备份又是IT的后台,备份工作不那么引人注目,但是,实际上,备份工作对相关工作人员的技术和经验要求都很高,需要IT管理人员对主机、服务器、网络、存储、操作系统、数据库等方面有全面的知识,特别对数据库的备份和恢复操作非常了解,要能够结合业务需求,规划IT架构,制定和执行备份策略,等等。一个好的备份系统,要考虑备份时间、备份成功率、恢复效率和难易、运维管理工作量等多方面的因素。

关于这一点,看一看福建移动备份系统的结构可以窥见一斑。以下为福建移动备份系统的逻辑架构图。福建移动BOSS备份系统采用EMC Networker备份管理集成软件。它是一个通用平台,支持广泛的数据保护选项,包括磁盘备份、复制、连续数据保护,以及跨物理和虚拟环境的重复数据删除。EMC Networker包含了介质管理、备份服务器、存储节点、备份客户端、带机资源共享、以及数据库备份接口等模块。其中,RMAN可以实现Oracle数据库动态物理数据的备份与无事务丢失的恢复,并且能自动够管理备份及保存策略。EMC Networker为RMAN提供NMO接口模块,使得RMAN能够通过Networker将备份数据写入磁带或从磁带中读取备份数据。福建移动BOSS系统中每天有大量的各种处理阶段的话单文件需要保存,在备份系统中采用了EMC Disk-Extender工具进行这些文件的归档,Disk-Extender可将文件数据在后台通过制定策略搬迁到ATA盘阵中实现归档存放。

福建移动BOSS备份系统逻辑架构

从数据的角度看,福建移动主要采取了四种备份方式,实现了BOSS系统多类型数据的保护。

  • w 数据库物理备份:BOSS系统最主要的数据保护手段,但备份过程对生产系统影响大、资源消耗大,并且需要进行大量优化、测试和配置管理工作。
  • w 文件数据备份以及近线归档:从原始话单到计费完成的话单文件实现了近线归档,近一年的话单数据可以通过近线访问方式进行使用。
  • w 异地数据备份及管理:实现直接的远程数据备份,以及两个机房节点间备份数据的拷贝,实现异地备份数据完全自动管理,无需人工操作等特点。
  • w 操作系统的统一自动备份:解决传统每台主机需要手工插入磁带进行备份的低效方式,实现大量系统主机的自动备份和统一备份数据管理。

目前,福建移动BOSS系统备份的具体情况是这样的,核心数据库服务器白天通过灾备服务器进行LAN-Free备份,每六天一次数据库全备份,其他时间增量备份;生产服务器每天备份两次归档日志;数据在虚拟磁带库保留2个月,每月定期克隆2-4份全备份到磁带库。关于客服/话单文件服务器,通过备份服务器进行LAN备份,每天晚上增量备份;数据备份到异地的物理磁带库中,保留半年到1年不等。

最后,林志云谈到一点经验,就是不要将备份系统单纯看成是使用备份软件将生产数据备份到备份介质上,而应该将其纳入到信息生命周期的整体规划中来统筹考虑。一般而言,生产数据库数据量非常大,做物理备份难度非常高,全备份的时间非常长,并且跟生产时间重合占用资源比较多。一些兄弟公司对数据库采用按区域划分的方式,数据库的体积往往很大。福建移动采用按功能划分的方式,分切得非常多,并根据数据在其生命周期中的不同位置,及时将数据移动到不同级别的历史数据库,以保持生产数据库的瘦身状态,这样可以保证最关键的生产数据得到及时备份及快速恢复,也使数据的整体备份流程和管理工作可以做到规范化管理,最终取得较高的备份成功率和恢复成功率。