保证业务连续性 华为容备解决方案解析

如今云计算、大数据等新兴领域方兴未艾,作为实现和承载的最佳平台的数据中心,无疑吸引了诸多的关注。 事实上,数据中心已成为保障企业信息系统正常工作的重要基础设施,如何保证数据中心的持续可靠运行,如何应对和有效化解数据集中带来的风险,已成为企业CTO们愈发关注的重要问题。

容备建设势在必行

全球在2004年因自然灾害和人为事故造成的直接损失达到1230亿美元

全球2005年共发生约400起巨灾,损失超过2300亿美元

在世界范围内与20世纪60年代相比,到了20世纪90年代,世界上可统计的自然灾害发生率增长了3倍,其经济损失增长了9倍

9.11事件中,美国世贸中心里数百家没有灾难备份系统的公司彻底消失

受汶川地震影响,整个银行业净损失约在50亿~130亿人民币, 没有灾备中心的城市商业银行影响很大,08年银行业净利润下滑0.7%

﹍﹍

世事无常,灾难一直如影随行的陪伴着人类社会的发展。随着信息化的快速发展,以政府、金融、电力、大型企业等为主的各行业逐步建立大型数据中心完成数据集中处理,数据的集中也意味着风险的加剧,对数据中心的可靠性也提出了更高的要求。企业数据中心必须能做到7×24小时不间断的服务能力,为避免数据中心遭受灾难时造成的巨大损失,容灾备份系统的建设已势在必行。

9.11之后,灾难备份被提升到前所未有的高度,国内研究机构、咨询机构、IT服务企业不断呼吁灾难备份建设。国家信息化办公室也在2005年发布《重要信息系统灾难恢复指南》,将灾备建设推到新的高度。2010年银监会发布的《商业银行数据中心监管指引》明确指出商业银行需要建设灾备中心。

容备建设概念

根据国家标准《信息系统灾难恢复规范》(GB/T 20988-2007)的定义:灾难是指由于人为或自然的原因,造成信息系统严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件。典型的灾难事件包括机房内事件(如系统单点故障、机房电源系统故障、广域网故障、机房漏水、空调系统故障、存储阵列关键设备故障、人为破坏、软件逻辑错误、信息安全故障等)、建筑物灾难(如建筑物外部火灾、建筑物内部火灾、机房内部火灾、长时间停电、光缆中断等)和区域性灾难(指机房所在区域或有紧密联系的地区交通、电讯、能源及其它关键基础设施遭到严重破坏,或大规模人口疏散的事件,如地震、大规模卫生事件、恐怖袭击、电网故障等)。

灾难备份是指为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、专业技术支持能力和运行管理能力进行备份的过程;而灾难恢复是指为了将信息系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态、并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。灾备系统的建设包含七要素:数据备份系统、备用数据处理系统、备用网络系统、备用基础设施、专业技术支持能力、运行维护管理能力、灾难恢复预案。

《信息系统灾难恢复规范》将灾难恢复能力划分为6级,灾难恢复能力等级越高,对信息系统的保护效果越好,但同时成本也会迅速上升。灾备等级主要从 RTO(恢复时间目标)和RPO(恢复点目标)来考虑,RPO(恢复点目标)是指发生灾难前最后一次备份的时间点距离当前时间差(数据丢失时间);RTO(时间恢复目标)是指发生灾难后恢复物理系统环境的时间。大部分的用户关注的是数据安全性,即RPO值(RPO越小,数据丢失越少),但是用户往往谈的更多的是RTO(RTO越小,恢复生产越快)。

基于上述定义,灾备系统可以理解为以“备份”为手段,以“恢复”为目标,是一项周密的系统工程。这一工程不仅需要进行备份中心的建设以及相关IT系统的购置,还需要在生产中心与备份中心之间搭建一张安全可靠的灾备传送网络。

容备网络建设

绝大部分情况下,容灾系统需要借助广域网进行互联,由于灾备的特殊性和重要性,对广域网的要求比较高:

1) 超大容量:在信息爆炸的趋势下,存储容量动辄数十到数百G,甚至到Tbit级别,需要足够大的网络带宽进行传送。

2) 高扩展性:随着企业数据业务量的迅速增加,存储容量每年都要高速扩展;

3) 高实时性:实时性是数据存储业务的一个基本要求,举一个我们日常生活中的例子就可以明白这一点:我们到银行存钱的时候,都希望这笔钱能够实时到账,稍有滞后我们都会无法容忍;

4) 高可靠性:对企业来说,关键业务数据的丢失是难以容忍的;

5) 接口多样性:虽然目前主流的接口类型是FC(Fiber Channel),但数据存储网络依然存在多种协议共存的情况,导致网络存在多种类型的接口,包括ESCON、FICON、IP等,甚至还有ATM、 SDH接口类型。另外,现在各主流存储厂商如IBM、EMC、Hitachi、HP等,提供的接口也不完全兼容。这些情况导致了数据存储业务接口类型不统一、多种接口并存的状况。

灾难类型不同,应对的策略也不尽相同。对于机房内事件,可以在本地数据中心完成灾难恢复;对于建筑物灾难,需要通过同城灾备中心完成灾难恢复;而对于区域性灾难,则需要通过异地灾备系统,对业务运营进行保障。比较典型的方式比如华为的“两地三中心”方案,即设立主数据中心、同城灾备中心和异地灾备中心。

图1两地三中心组网图

本地数据中心通过双机热备、本地备份、CDP这些在线/近线的数据保护手段完成机房内事件的灾备。

同城灾备中心方案顾名思义是指在同一个城市中部署的灾备中心,能实现数据的同城实时备份和业务的实时倒换,保证业务的连续性。同城实时备份可保证主数据中心和灾备中心的数据完全一致,达到最高的数据保护级别,尤其适合于核心和关键业务,如要求RPO/RTO接近于零的应用。因此,同城灾备对网络的性能和稳定性要求较高,如高带宽和低延时,目前主流的传送网技术是DWDM技术。

首先,DWDM具有超大的带宽及较强的扩展能力,特别适合数据存储业务带宽需求巨大、后续带宽扩展频繁的应用场景。DWDM是一个多波长的传送系统,传送带宽巨大,并可灵活扩展。目前,业界主流的DWDM系统是40/80波。如果每个波长传送10G的带宽,那么80个波长可传送的带宽将达到 800G;如果每个波长传送40G的带宽,那么80个波长可传送的带宽将达到3.2T;如果每个波长传送100G的带宽,那么单根光纤将可实现8T的海量传送带宽。

DWDM可以根据带宽需求的增长灵活地增加波长数。比如,目前有80G的存储数据要从生产中心传送到备份中心,那么DWDM系统只需要采用8个波长;如果后续又有40G的数据需要备份传送,则只需在DWDM系统上再增加4个波长,从DWDM设备角度来说,只需增加4块板卡即可。

其次,DWDM作为一种成熟的技术形态,在网络安全、可靠性方面已非常完备。DWDM不但具有光线路层面的保护措施,而且具有业务接入层面的完善保护措施,完全可以满足数据存储业务的灾备网络在高安全性、高可靠性等方面的要求。

第三,经过多年的发展,DWDM已能支持当前所有主流的存储业务接口。只要DWDM设备厂商与主流存储设备厂商做过对接认证测试,DWDM系统将能满足数据灾备系统对接口多样化的需求,华为是目前为止通过与主流存储及服务器厂商认证测试最多的光传输厂商。

异地灾备中心方案是把数据备份到相对较远的城市,跨越地质灾害半径,能消除地震等地质灾害对业务数据的破坏,可采用MSTP、WDM等技术构建异地灾备系统。

MSTP作为一种成熟的传输技术,支持几乎所有的以太网和存储业务接口类型,完全可以满足灾备系统接口多样性的需求。

MSTP在网络可靠性方面已非常成熟。异地灾备系统采用两套设备和主备路由保护等物理隔离方式,可以实现业务网络、核心单板“双重”保护,确保异地灾备网络的私有性和安全性。

目前,业界主流MSTP厂商比如华为等都支持线路侧采用彩光模块,可以跟WDM设备直接连接,减少故障点,进一步提高网络可靠性。

结束语

信息数据对企业发展至关重要,灾备系统建设是企业信息化的一个必要进程。随着技术的不断发展和相应法律的不断完善,全球范围内将会掀起数据灾备传送网络的建设热潮。