采用高可用灾难备份 永葆业务持续运营

1综述:

在过去的30-40年间,灾备服务体系本身在不断的自我完善:从最初的仅仅面向数据,面向IT系统,面向单一自然灾害,逐渐转向面向业务、面向合作伙伴、面向整个供应链。

现在,越来越多的企业CIO青睐于选择灾备外包模式–在业内人士看来,由灾备自建到灾备外包,是企业灾备管理意识的自我觉醒和自我提升。采用灾备外包模式,企业不仅可以在基础设施建设、运行维护及人力资源投入等方面节约大量成本;而且在灾备服务质量,服务效率,降低实施风险,提升核心竞争力等方面更具优势。

选择"适合"的灾备外包服务商对于灾备项目的成功,以及遇到突发灾难后的灾难恢复成功至关重要。虽然,业界对灾备外包服务商的选择没有统一的标准,但是,企业可以从服务资质、服务客户、服务经验、服务体系、运维管理体系、客户满意度等多方面衡量外包服务商的能力,如是否具有高等级数据中心或灾备中心服务网络;是否具有灾备服务资质;是否具有经过认证的ISO20000、ISO27001、ISO9000、BS25999等标准化服务流程;是否有相关行业客户及成功案例;是否具有经过实践检验的服务方法论和流程等。

将灾备外包或自建灾备中心,并不意味着企业就可以高枕无忧,长治久安,企业还需要不断地进行测试、演练,并提升基础设施、IT架构等方面的持续管理能力。因为并不是所有的问题都可以通过切换到灾备中心就可以解决,灾备只是企业高可用管理中的一个环节。企业只有将灾备与高可用管理相结合,从IT架构及运维管理、基础设施及管理、灾备建设及运维、安全及管理、IT治理等方面全方位考虑,整体改进和提升,才能使IT系统始终处于一种高可用的水平,降低总体拥有成本,保障业务持续、安全、高效、健康运行。

2抉择

"居安思危,思则有备,有备无患"是古人对"灾备"理念最好的诠释。今天,随着信息化和网络的普及,灾备与政府、企业的IT、业务的紧密程度越来越高,从电子商务到政府服务、从交通管理到金融交易,从能源供应到生产制造,人们的日常生活和政府、企业的正常运转越来越离不开灾备,几个小时甚至几分钟的IT中断都可能造成经济和市场、声誉方面无法估量的巨大损失,甚至直接影响到社会稳定和生命健康、安全。

在过去的30-40年间,灾备服务的范围在不断延伸,扩展,从最开始仅仅面向数据,面向IT系统,面向单一自然灾害,逐渐转向面向业务部门、面向合作伙伴、面向整个供应链,并且,灾备体系本身也在不断的自我完善。

国内政府、企业的灾备建设真正起步大概是在2000年左右,主要受"千年虫","9.11"等事件影响,部分银行、保险、基金公司开始关注灾备。其中,相对于大批自建灾备项目,深圳发展银行独辟蹊径,选择将灾备外包,这在当时业内人士看来,不外乎一大创举。该举措创造了多个国内第一,如国内第一个灾备外包先例,创IT服务市场最大单项服务合同额等,对灾备服务市场产生了极大震撼。

从2005年起,国内企业对信息系统灾备提出了更为迫切的需求,相应的标准和规范也越来越多,如国家标准《信息系统灾难恢复规范》以及银行、证券、保险、基金等行业标准相继出台,对灾备的建设范围、等级和方法提出了明确的要求,企业迫于自身灾备需求和行业监管要求,陆续开始进行灾备体系建设。

相对来讲,国内灾备市场发展与国外发达国家之间还存在较大差距。首先,灾备建设起步较晚;其次,早期灾备建设以自建为主,超过70%以上的企业采用自建模式,在欧美等发达国家,情况正好相反,超过70%以上的企业采用外包模式;第三,国内企业更偏重IT系统的灾备,对业务关注度不高,而且备份系统偏少。

2008年,中国灾备外包接受程度有大幅度提高,对灾备的认识也有了进一步提升:包括国家开发银行、华夏银行、国投瑞银等在内,一大批金融企业选择了灾备外包模式;调研机构IDC 2009年针对中国市场进行的灾备调研报告显示,有意向全部灾备外包的企业有10%,而有意向部分外包的企业则占受调查企业的56%-70%,潜在的用户需求预示着庞大的市场需求。

国家发展和改革委员会高技术产业司处长王娜指出,商业化的第三方灾备体系,更加符合"国家实现资源配置最优化的需求"。工业和信息化部软件服务业司处长尹洪涛也认为,IT外包、灾备外包、数据中心管理外包都是非常可行的,中国已经具备进行灾备外包的基础设施,数据中心和灾备外包更适合中国国情,而且,灾备外包更具有优势。

对此,GDS(万国数据服务有限公司)总裁兼CEO黄伟非常赞同,他表示:"以GDS为例,GDS不仅拥有覆盖全国的高等级数据中心、灾备中心网络,而且拥有专业的灾备服务团队和多客户服务经验,可以为政府、企业做好灾备服务的基石。"

不仅是政府机构认可灾备外包,越来越多的企业也开始青睐灾备外包。在大连银行常务副行长许文看来:充分借助外在力量,扬长避短是大连银行IT系统建设的策略之一。采用灾备外包能够较好地解决投入资金巨大、人才匮乏、时间紧张以及过往成功经验不足四大问题。

海富通基金管理有限公司总裁田仁灿对此有着由衷的体会,田仁灿指出:在灾备建设方面,海富通的态度是 "外包,做自己更擅长的事"。因为,"我们虽然是投资管理界中的专家,但是我们不可能是所有方面的能人,在当今这个科技、技术、知识不断发展的情况下,我相信没有一个人敢说他懂一切,所以海富通在灾备建设方面愿意倾听专家的建议,愿意将不熟悉、不擅长的工作外包出去。

同样,在国开行看来,灾备属于非核心业务,如果自建,投资巨大,建设周期长;选择公司内部分支机构办公场地建灾备中心,建筑标准、电力供给又难以满足灾备中心要求;此外,灾备中心的运营、管理也不同于生产中心,需要专业运维、管理经验。因此,国开行选择将灾难备份中心建设及运维服务外包给第三方完成。

3价值

为什么越来越多的政府、企业倾向于将灾备外包,灾备外包与自建相比究竟有哪些优势?GDS(万国数据服务有限公司)首席灾备专家汪琪指出,相对于灾备自建,灾备外包在基础设施建设、运行维护及人力资源投入等方面可以帮助企业大量节约成本;在灾备系统服务质量、服务效率、降低实施风险、核心竞争力提升等方面也更具优势。

基础设施建设成本

灾备中心对于电力系统、空调系统、消防系统及建筑物规格等的要求非常高,还需要配备业务恢复坐席、指挥室、会议室、多功能厅此、客房、餐饮等业务连续性辅助设施,因此,企业若自建灾备中心,将面临更多的困难及挑战。采用外包模式,企业可根据灾备系统实际的机房面积需求及IT系统建设周期(一般为3-5年期),灵活的租用场地空间,通过共享基础设施及业务连续性辅助设施等,企业可以大幅节约在基础设施成本方面的投资。

运行维护成本

自建模式下,企业需建立一支技术覆盖面广、专业性强的灾备中心运维团队,人力成本非常高。另外,还需要支付由于自建模式预留资源而增加的额外成本,例如机房未完全使用时,空调系统所需的额外电力成本。

外包模式下,企业无需扩大自身人力规模,减少了因人才聘用或流失而花费的管理、时间及技术风险成本,增加了人力资源配置的灵活性。通过采用按需支付的服务模式,利用第三方服务商的基础设施及运维人员,可以快速获得高规格的基础设施及维护服务,企业也避免了预留资源而增加的额外成本。

服务质量

自建模式下,企业灾难恢复体系的质量保障主要依靠企业自身的人员素质和管理水平;由于灾难恢复系统运行的特殊性,人员稳定性、技术能力以及专业性都会面临挑战。外包模式下,企业可以对外包服务商进行综合评估,通过严格的SLA(服务水平协议)、SOW(工作说明书)对服务质量进行经常性审查,服务质量、服务效率更有保障。

责任机制

自建模式下,大部分企业是由同一个部门承担生产中心和灾备中心的运行责任,在管理机制上灾备中心的运行队伍并不是面向生产中心负有服务责任,其工作责任主要靠岗位职责和绩效考核。外包模式下,灾备中心由专业公司负责运维,对企业的生产中心承担服务责任,并且有相关的服务赔偿条款,相关责任和义务更为明确。

建设、运营效率

自建灾备中心工程浩大,已远远超出企业IT部门和企业自身管理范畴,而且牵扯电力、市政、土建等多个政府职能部门,因此,建设周期通常为12-24个月。外包模式由第三方服务商提供现成的灾备中心资源,大大缩短了项目周期,使企业在3-6个月就可获得相应的灾难恢复能力。

风险及实践经验

第三方服务提供商拥有完善的灾难恢复服务体系和方法论,专业的技术和运营管理团队,丰富的运营、管理、服务经验,可以让企业直接分享服务提供商的最佳成功实践。

核心竞争力提升

灾备中心建设和灾备运营、管理仅是业务持续运行的支持、保障手段,并不能直接创造营业额,因此,采用外包模式可以帮助企业在基础设施建设、运维管理、人力资源投入等方面节约的同时,使企业能够集中更多的人力、财力、物力等资源,专注于核心竞争力的提升。

需要特别强调的是,目前灾备服务市场的服务提供商水平还良莠不齐,差强人意,企业需要选择服务经验、服务能力、服务水平、服务质量均有保证的服务提供商。虽然灾备外包服务商没有统一的选择标准,但是企业可以从服务资质、服务客户、服务经验、服务体系、运维管理体系、客户满意度等多方面衡量服务提供商的能力,如是否具有高等级数据中心或灾备中心服务网络;是否具有灾难恢复服务资质;是否具有经过认证的ISO20000、ISO27001、ISO9000、BS25999等标准化服务流程;是否有相关行业客户及成功案例;是否具有经过实践检验的服务方法论和流程等。

4未来

在灾难恢复体系规划和建设过程中,普遍存在一些问题:国外的灾难恢复体系规划建设方法是从19世纪80年代IT系统可用性改进过程中逐步发展和完善起来的,在发现单数据中心通过以部件冗余、系统冗余、数据安全、数据备份恢复等技术为代表的本地高可用技术不能完全解决重大事件引起的中断后,逐步发展了包括紧急事件管理、危机公关、灾难恢复、业务连续等相关的理念和方法。

可以说,国外的灾难恢复和业务连续管理理念和方法是以成熟的高可用性管理为基础和支撑的。灾难恢复体系的建设是完整高可用性管理的外延和扩展。

而目前,国内的IT系统虽然在建设和规划过程中使用了很多成熟的高可用技术,但对高可用性管理却缺乏统一的认识和整体的规划管理方法,甚至会出现舍本逐末的现象,对灾难恢复体系的建设寄予过高的期望。好像灾备中心建成后,以后不论出现什么问题都可以通过切换到灾备中心来解决。而实际上灾难恢复体系并不是万能的,受到灾难恢复体系的等级、使用的技术、灾备中心的距离和物理位置等限制,灾难恢复体系并不能解决所有的问题。它只是整个高可用性管理体系中的一个环节,只有从整个IT系统的角度,在技术和管理方面对整个系统的可用性进行通盘考虑和规划,才能真正达到预期的可用性目标:将IT管理人员从惴惴不安的等待火情发生的救火队员的角色中解救出来,从规划师和设计师的角度重新审视整个管理范围,消除可能隐患、布置监控和管理工具、对重要区域和高风险事件进行重点防范,达到既提升了安全等级,使IT系统风险管理有序可控;又提升了管理效率和工作品质。

虽然很多IT管理人员和服务厂商在IT系统可用性的提升方面投入了大量的成本和精力,甚至可以说不遗余力,但实际结果却是各自为政,效果无法预期。这主要是由IT系统的复杂性所决定的,现在的IT系统服务可用性依赖于技术和管理的不同方面,包括:数据中心基础设施、技术架构、信息安全、灾难恢复等,涉及网络、存储、数据复制、安全、监控、空调、电力等不同技术领域,而且往往取决于最薄弱的环节和最短板。

因此,提升IT高可用性管理水平需要从IT架构及运维管理、基础设施及管理、灾备建设及运维、安全及管理、IT治理等方面全方位考虑,整体改进和提升,使IT系统始终处于一种高可用的水平。

从实施策略方面看,企业首先应在基础设施、应用系统、中间件、数据库、操作系统、存储、服务器、网络、灾难恢复体系和安全防御手段等技术层面实现高可用,确保企业IT资源运行的持续性和应用系统运行的安全性和稳定性。其次,应在基础设施管理、IT服务管理流程、关联组织、人员、治理结构、灾难恢复体系管理和安全管理等管理层面确保IT服务的可用性、安全性和持续性。