灾难备份:应急响应的最后一道防线

 我国的信息化建设从1994年发展至今,十余年的建设历程使得各行各业赖以生存和发展的应用业务广泛搭建于信息化平台上。

然而,在人们享受信息化高速发展带来的便利的同时,我们对信息化平台的依赖却引发了另一种焦虑:信息系统中出现的任何灾难性问题都有可能使政府的公众服务中断、使行业的业务能力丧失、甚至使一个企业彻底垮台……在国际上,众所周知的美国9.11事件、东京机场的红色病毒事件等,都是由于灾难导致信息系统瘫痪、业务中断的案例,而2006年台湾大地震所致的六条国际电缆损坏使国际互联网访问业务全部中断的事件也影响重大。

可以想象,如果证交所网络瘫痪,则会导致股民无法正常进行股票交易,银行信息系统瘫痪将会导致金融交易被迫中断,民航信息系统瘫痪会导致飞机无法落地、乘客滞留……所有这些都警示我们:容灾工作,刻不容缓。

信息化发展到今天,如果信息系统没有相应的灾难备份策略,那么其生存和发展必然会在某些要害时刻遭受致命威胁。

面对大大小小的灾难对信息系统以及构建其上的业务平台的破坏,特别是9.11事件对美国社会带来的巨大影响,灾难备份引起了世界各国的广泛关注:美国Board、SEC、OCC发布了强化金融容灾能力的白皮书,限定容灾能力到位的时间表;美国政府制定的COOP计划,确定了政府容灾能力下限;其他国家也重新评估了银行容灾能力并提出监管要求,如英国的FSA、德国的HKMA以及新加坡的MAS。

另据了解,迄今为止全球70%的大型企业已经启动了自身的灾备计划。

拨开实施困扰

"小概率,高风险;高投入,低效率;建设易,维持难"是曲成义研究员对灾难备份本质特点的经典归纳。要做好灾备建设,需要对灾备的特点有清醒的认识,同时要避免实施过程中的种种误区。

灾难的发生是小概率事件,它不会经常性的全面爆发,因此人们往往忽视它发生的可能。"我在任的几年里哪有那么幸运会碰到灾难呢?"一些单纯注重当前工作业绩、对灾难高风险性认识不足的领导人往往不愿意在自己的任期内建设灾备系统,然而这种疏忽却将企业置于巨大的风险中–灾难一旦爆发,企业甚至可能丧失生存的能力。

灾难小概率的特点容易让领导者忽视灾备体系的建设,而其"高投入、低效率"的特点又往往让管理者难下资金投入的决心。管理者的最主要目标是企业利润最大化,他的关注重点更多地集中于企业的生产任务,灾备体系高投入却难于产生眼前效益的特性并不符合企业常规的投入产出比。因此,在资金有限的情况下,管理者很难下定决心开展灾备建设。

"建设易、维护难"的特点则使得一些投入建设后的灾备系统的效益难于发挥。曲成义在介绍以往灾备建设案例时谈到,"一些灾备系统建成几年后,能人就都走光了。"的确,在灾难来临时,灾备系统的效益可以立即体现,然而在没有灾难时,灾备系统除了演练、检测、维修外是不是就没有了用武之地,无法发挥效益。因此,如何筹划灾备系统在非灾难时期的合理应用与效益发挥需要深入思考,不少体现"平战结合"思想的灾备中心建设案例也值得借鉴。

只有正确理解和把握灾备的特点,才能合理科学地应对。事实上,国家许多相关政策的出发点也正是基于灾难备份的上述特点。

2003年8月,中共中央办公厅下发了《国家信息化领导小组关于加强信息安全保障工作的意见》(中办发[2003]27号文件),文件中提到各基础信息网络和重要信息系统建设要充分考虑抗毁性与灾难恢复,制定和不断完善信息安全应急处置预案;责任的法律化落实要做到"谁主管谁负责、谁运营谁负责",避免责任不清晰带来的问题。

继27号文从战略层面提出灾备建设对策后,2004年9月,国家网络与信息安全协调小组办公室又出台了《关于做好重要信息系统灾难备份工作的通知》(信安通[2004]11号文件)。通知作为国家信息化灾难备份体系建设的纲领性文件,提出了很多具有鲜明政策意义的观点。

文件提出要提高抵御灾难和重大事故的能力,减少灾难打击和重大事故造成的损失、确保重要信息系统的数据安全和作业连续性,避免引起社会重要服务功能的严重中断,保障社会经济的稳定;要加速推进对国计民生有重大影响的机构、行业的灾备建设,要在灾难出现时认真做好应急预案与灾难备份,将重点行业的灾难备份问题提到了更高的层次。

此后,在2005年4月,国信办又出台了《关于印发"重要信息系统灾难恢复指南"的通知》(国信办[2005]8号文件)。文件指出重要信息系统的灾难恢复应遵循的基本要求,从原则、技术、规划、管理等层面给予了指导,指明了灾难恢复工作的流程、灾备中心的等级划分及灾难恢复预案的制订框架。

建设中的战略反思

在解读政策的过程中,曲成义着重分析了11号文中的四句话:"统筹规划、资源共享、平战结合、等级容灾"。

谈及"统筹规划、资源共享",曲成义以北京市政府灾备建设为例讲到,"首先,灾难备份一定要统筹规划。在集约化建设模式下,北京市政府对63个委办局的灾备进行统一规划、统一策划,这就是灾备中心统筹规划的一种形式。而资源共享,也就是说我们不要每一家都自己花钱建设运营。北京市政府的集约化建设做到了资源共享。"

另外,"平战结合",也就是要考虑扭转灾备"高投入、低效率"的特点,在非灾难时期,充分利用灾备中心的资源,做到"战时能战、平时有用"。曲成义举了工行的案例,工行的灾备中心与生产中心具有"1:1"的资产能力和建设规模,都是大投资的项目。

由于金融产品不断地发展更新,许多金融产品、应用软件需要调试、开发、测试,于是灾备中心在"平时"便充当了对软件进行检测、运行、验收的角色,新型金融产品经过灾备中心的检测、运行、验收再由生产中心进行应用,这样便很好的发挥了灾备中心平时的效用,让系统在非灾难时期依旧有用。

另外,北京地税在生产中心运营网上纳税等核心业务,在灾备中心运营管理和统计报表等非核心业务,也是一种"平战结合"的应用模式。尽管各个行业的灾备建设存在差别,但工行与北京地税的案例无疑是其他信息系统灾备建设时的有益参考。

最后需要强调的是"等级容灾"。"国家马上要出台一个关于灾难备份实施的国家标准,其中将我国的灾难备份分为六级,"曲成义介绍说,"六级中包括两部分,前三级是数据级灾备,后三级是应用级灾备,级别越高建设的花费就越多,其应用效率也就越好。"

事实上,灾备建设中的等级容灾与等级保护一样,并不是建设级别越高越好。而是需要评估各个业务的重要程度及对信息系统的依赖程度,根据系统的业务实效性、关键性、安全性等方面进行认真分析,科学合理地确定灾备系统建设等级。定级原则、定级实施办法、定级后的测评以及等级保护的范围等应认真研究、贯彻这些规范对于用户和业主考虑采取何种策略、如何投入、选择何种实施级别都有非常重要的指导意义。

"灾难恢复的规范现在已经最后审定,很快就会出台。规范出台后就可以直接指导你根据系统需求进行分析定级就可以了。"曲成义随后提到了灾难恢复规范中指出的"灾难备份七大要素",包括数据备份采取何种对策、主处理系统采取何种对策,网络通讯的信道、设施、切换等因素如何考虑,灾难应急预案包括哪些要点,灾难备份系统建立后该怎样运维管理,整个系统的技术支持与人力资源该如何使用,灾难备份的基础设施进入安全环境该采取什么对策。"这七要素是灾难建设备份中的关键环节,对业务具有关键性、指导性的作用,企业应该结合自身需求进行学习参照。"

此外,关于灾难备份还有一些因素值得认真考虑。比如灾备建设前根据不同行业、部门进行需求分析;重视等级保护和灾难恢复机制的选择,从而合理平衡灾备的投入产出;严格遵守灾难恢复规范和标准,从而在节约成本的同时又保证系统的科学性与健壮性;作为灾备建设的基础与起点的数据灾备,成本不高又有重要价值,必须立即启动;积极推进国家支持鼓励的灾难恢复的集约化建设和社会化服务等。

社会化服务待推进

在实际建设过程中,独立自建、联合共建(即集约化建设)、社会化服务是灾备建设的三种模式。

目前在我国,独立自建的模式主要集中于银行、海关、税务等灾备建设需求迫切、拥有强大经济实力、有较好技术支撑的行业。"这些行业的独立自建是符合他的行业现状的," 曲成义介绍说,"他们的灾备建设对国家经济的健康发展有着重要意义,因此对于这些行业的独立建设模式国家是支持的。"

另一种灾备建设模式是联合共建,也叫集约化建设模式。曲成义再次列举北京市政府集约型建设案例作为说明,"北京市政府有63个委办局,如果每一个委办局都建一个同城异地的灾备中心,要花多少钱?而集约化建设就是大家共同统筹规划、合作建设、资源共享,共建一个统一的机构为大家服务。"

与北京市政府相似,上海市政府与深圳市政府的灾备建设也都采取了集约化建设模式,这种模式通过某种程度上的政府行为让大家联合建设、资源共享,从而很好地减少了投入、降低了成本。

以灾备产业发展较为成熟的美国为例,其独立自建、联合共建与社会化服务三者分别占灾备建设的29%、15%和56%,从数据可以明显看出社会化服务所占据的高比例。"社会化服务正在成为一个主流的趋势。"曲成义认为。简单来说,社会化服务就是将行业或企业的灾难备份业务交由第三方,由专业的灾备服务提供商提供支持和服务。由于灾备服务提供商服务于广泛的客户群,因此拥有更为广泛专业的技能。

此外,用户还可以利用服务商的规模经济降低成本并实现资源共享。因此,相比于自建与共建,社会化服务模式具有专业化程度高、成本投入低、资源共享、高服务质量的鲜明优势,也正是这种优势赋予了社会化服务"主流趋势"的强大生命力。

然而,我国的灾备建设目前仍然处于起步阶段,社会化服务模式的发展水平也很低。首先,我国的灾备社会化服务提供企业还正在成长中,绝大多数企业都处于策划、筹建、成长初期。另一方面,用户还不信任社会化服务。

毕竟我国还没有出台相应的标准或法规对灾备服务供应商的市场准入和行为进行约束、对企业的资金与技术能力等条件进行要求;也没有明确的规定或制度对企业的服务质量、服务级别进行有效的控制;而且用户与服务企业在权力和义务的界定上存在着很多模糊地带。

另外,我国企业自身的诚信水平参差不齐,国家对企业诚信的管理有待加强,在这样缺乏约束的市场环境中,用户难将系统放心交给社会化灾备服务企业;而涉密或敏感信息和数据不在自己的控制范围内也可能带来新的风险。

当然,另外一些用户也存在"肥水不流外人田"、"宁可养一帮人搞灾备自建"的心理误区,这既导致了灾备建设高成本也阻碍了社会化服务的发展。

可以说,社会化服务的快速发展还有一段路要走,其间需要服务企业自身能力的增强、诚信度的提高,也需要用户观念的更新,更需要国家相关法律法规体系的快速出台,国家信用体系的逐步建立,从而正确引导企业、用户,共同来支持、扶持、推动社会化灾备服务的发展。据曲老师介绍,目前国信办正在就两会中关于灾备社会化的提案进行广泛调查,准备出台政策以支撑扶持社会化服务业的建设,让用户体会到社会化服务的好处。

"8+2"行业灾备建议

除了走在灾备建设前列的银行、海关等行业外,税务、电力、铁路、证券、保险、民航、电信、广电等关系国计民生的重要行业都在积极启动灾备建设工作。

谈到国家引导并率先启动的"8+2"重要行业灾备体系建设时,曲成义认为,"8+2"行业灾备建设应首先做好统筹规划,从顶层设计开始进行全局规划,然后再逐步实施。"

因为你是一个庞大的信息系统,一旦做烂,很难回过头来收拾的。"对于重点行业的灾备建设模式,曲成义认为可以采用独立建设、集约化建设、也可以采用社会化服务,还可以三种模式相结合,"三种模式在一个系统完全可以实现"。关键在于在顶层设计和统筹规划阶段进行深入分析,科学合理地选择恰当的建设模式,前期分析得越清晰,建设才会越合理。

另外,"8+2"灾备建设最好采用"同城+异地"并行的模式。曲成义认为,由于核心业务的关键性以及对快速反应的要求,同城核心部位应用级灾备建设是比较合适的。而对于类似地震等大范围的灾难事件,仅有同城灾备是不够的,这就需要异地建设全额应用级灾备进行补充。

由于"8+2"行业对业务时效性的高要求,因此"同城的核心灾备+异地的全额灾备"是较为合理的模式,当然,对于大系统来说,再设一个第三处的数据灾备也是必要的,毕竟数据灾备是信息系统的基础和命脉。另外,"平战结合"亦是"8+2"行业需要关注的重点,只有切实做到"平战结合"的灾备中心,其生存能力才更有保障。