“相互备份,资源共享”――EMC构建山东联通容灾系统

一、绪言


    在信息时代,数据是企业创造商业价值的生产资料,数据的丢失将为企业带来毁灭性的灾难。据Gartner Group的调查数据表明,在经历过大型灾难或长时间系统停运的公司中,有2/5的公司再也未恢复运行,而在其余的公司中,有1/3的公司在两年内破产。


    有句古谚叫“别把鸡蛋放在一个篮子里”。现在的信息系统,各种数据高度集中,“鸡蛋”全放在一个篮里了。一旦出现突然停电、意外死机或者人为破坏,造成数据丢失是不可避免的。面对各种未可预知的灾难,越来越多的企业将容灾备份系统作为企业安全的保障。


    容灾备份系统就是防止意外情况而采取的一种解决方案,其目的只有一个,那就是保证数据安全。9•11事件中,纽约世贸中心大楼倒下的同时,许多大公司的商务数据在瞬间“灰飞烟灭”,其价值比倒下的大楼价值高得多,但世贸中心最大的主顾摩根斯坦利公司因为拥有远程容灾备份系统,其业务数据完好无损!


二、山东联通简介


    中国联通有限公司山东分公司(以下简称山东联通)是中国联合通信有限公司(中国联通)在山东省的分支机构,于1995年9月在济南注册成立,主要承担联通通信网在山东境内的建设、经营和管理。
经过多年的发展,山东联通的整体实力在不断的增强,到目前为止,山东联通是中国联通最大的省级运营商之一,截至2002年,共有用户400万,并拥有一个大容量、高速率、覆盖全省、连接国内外的传输和移动通信网络。山东联通的通信网已实现数字化、智能化、自动化;长途干线传输网全部实现数字化、光纤化,正在向全光纤联网过渡。网上交换、传输设备基本采用了国际最新、最先进的设备,在效能上具有极大的开放性和可扩充性。经营的电信业务由成立之初的移动通信(GSM)、无线寻呼发展到目前的移动电话业务(GSM和CDMA)、长途电话业务、本地电话业务、数据通信业务、无线寻呼业务、互联网业务、电信增值业务、以及与主营业务有关的技术咨询和技术服务等其他电信业务。


    为了更好地支持山东联通业务的迅速发展,应对业务环境的不断变化,向用户提供更好的服务,山东联通把原来离散的、针对不同业务和不同地区用户的IT支持系统整合成为了一个统一的业务支持系统,整合后的业务支持系统使山东联通更好地发挥了作为一个提供全面服务的电信运营商的综合竞争优势,更充分地发掘了用户需求,更好地推广了新业务,降低了系统的运营成本。


    但是由于山东联通的业务全面地,高度依赖于这样一个整合的支持系统,所以要求该系统的可靠性必须达到一个更高的水平,系统必须具备容灾能力,因此,容灾备份系统成为山东联通业务支撑系统必须建设的功能子系统。


三、山东联通对容灾备份系统的要求


    (1)分散分布,互为容灾


    容灾备份系统的建设能够大幅度提高业务支撑系统的可靠性,使系统对影响数据中心正常运行的严重故障或事故(包括自然灾害、环境故障、人为故障等)具有抗御能力。但是,严重事故是偶发性的,容灾系统抗御严重故障和事故的能力是建立在系统拥有一定程度冗余配置基础之上的。因此,建设容灾系统的时候,事先不仔细规划,简单的冗余配置会在平时造成大量资源的巨大浪费,这种资源包括-机房环境、服务器设备、网络设备、存储资源、系统软件和系统维护的人力资源投入。另外,容灾备份系统仅仅是业务支撑存储系统中一个相对独立的功能子系统,由于这种相对的独立性,使得业务支撑系统中的关键业务子系统可以互相利用对方作为容灾备份系统。


    山东联通拥有多个具备生产条件的机房设施,这些设施之间具有良好的光纤通信资源。基于上述的考虑,山东联通从整个数据中心建设的高度出发,提出了“逻辑集中,地理分布,互为容灾,负载均担”的数据中心建设思路。它要求容灾备份系统能把核心业务支持系统分布到多个地理上相隔离的机房,然后相互进行容灾。在平时,所有的资源都是被充分利用的,而发生灾难时,子系统之间可以相互接替。


    (2)完整业务恢复


    当生产点的业务数据无法访问时,容灾备份点保存有生产点业务数据的副本,这一数据副本能够支持业务继续在容灾备份点恢复运行,但是二者之间通常是有差异的,这个差异被称作RPO(以时间度量)。RPO为零,说明生产电和容灾备份点之间的状态时刻保持完全一致,RPO为两小时,说明容灾备份点的状态是生产点两小时前的状态,此时如果生产点发生灾难,则容灾点将“丢失”灾难发生前两小时的数据。虽然能根据对业务支持系统的全面分析,从业务系统的“外围”系统中恢复数据,但是这种“补充”恢复的手段通常会牵涉人工确认干预,不但耗费大量的人力,而且还需要很长的时间,这样长的时间是用户不可接受的。


    由于山东联通每天均有大量的业务进行,因此,山东联通要求容灾点的业务状态和生产点必须保持足够一致,如果用术语RTO来描述,就是RPO为0,即要做到业务状态的完整恢复。


    (3)快速、多向灾难切换


    业务支撑系统要跟其子系统配合,才能够支持整个业务系统的完整流程。因此,在业务支撑系统的容灾设计当中,需要考虑和业务支撑系统相关的所有其他外部子系统,当灾难切换发生时,和容灾点系统的配合问题,包括需要连接的服务器网络地址的更改和相应的存储管理软件设置调整等。


    考虑灾难切换,容灾备份建设么牵涉到数据复制模式、网络连接方式、本地I/O性能、复制方向改变、复制端数据复用、复制端数据恢复时延、难易程度等问题。


    由于在同步数据复制模式下,复制端的数据和生产端能保持完全一致。当操作切换到容灾点时,业务状态和灾难发生时生产点的状态完全一致,不再需要人工干预进行数据“补充”操作。信息系统部的技术力量可以完全从繁琐的“数据”补充操作中解脱出来,将更多的精力投入故障分析、排除和生产点恢复的工作中。另外,在一定的应用环境和网络条件下,数据复制操作造成的写I/O延迟增加很小,只占系统响应时间的很小部分,从总体考虑,同步操作对应用响应时间造成的增加几乎可以忽略不计。所以,山东联通在容灾系统中选用了同步数据复制模式。


    基于主机的复制软件通常仅支持IP网络,而基于存储的复制软件通常支持多种网络技术,包括裸光纤(或称黑光纤DarkFiber)、DWDM、ATM、IP等。网络连接方式不同,提供的带宽不同,网络自身造成的性能损耗也不同。对黑光纤而言,没有协议损耗;而且理论上讲黑光纤自身的带宽极高,其限制在于上层的传输手段。而IP技术,其软件协议的特性会造成很大的网络性能损耗。从这一点上考虑,山东联通倾向于采用基于存储的复制软件。


    当灾难发生后,容灾点接替生产点恢复业务。当生产点故障排除后,通常需要将生产系统恢复回(Fail Back)原生产点,而容灾点继续承担容灾的角色。在这一过程中,需要改变通常的数据复制方向,即将容灾点的数据复制回生产点,这些数据是在容灾点运行业务时新增的数据。这种反向复制并非只在真正的灾难发生时使用,联通平时的容灾演习过程中,这一功能也是必不可少的。


    除此之外,山东联通要求数据复制技术和应用系统的界面清晰,也就是说在功能上,数据复制技术能灵活满足各种应用系统,但不需要现有的和今后的应用系统为数据复制功能实现做出更动;在性能上,它不干扰应用系统的运行,占用主机系统资源。这样的数据复制技术,除了满足基本的容灾建设的需要外,还能够更好地满足山东联通建设“负载均担,互为容灾”的系统构想。


四、EMC的容灾备份方案


    经过反复比较,山东联通认为基于EMC存储系统的数据复制软件SRDF(Symmetrix Remote Data Facility)软件能够很好地满足容灾备份系统的要求,并采用SRDF软件来建设山东联通的第一期容灾项目,以实现容灾和资源共享。




    上图就是山东联通第一期容灾建设的结构示意,在该结构中,SRDF软件使分别位于两个数据中心的计费系统和营业系统数据相互复制。两套系统的主机资源在正常情况下分别运行各自的应用系统,在灾难发生时,可接替对端的系统继续提供业务支持。



    为了充分检验技术方案、产品性能和功能,山东联通对该容灾系统进行了断开一条链路、两条链路全部断开、机房灾难切换等容灾演习。结果表明,断开一条链路,生产系统继续运行,所有对R1的修改通过其余的链路同步到R2设备,R1和R2设备仍然处于同步状态。两条链路全部断开对生产点的应用系统没有影响,所有对R1的修改标记在INVALID TRACK TABLE中,当链路恢复后,自动开始同步R1和R2设备,直到R1和R2设备处于同步状态。在机房灾难切换中,一机房(灾难点)的应用在二机房(容灾点)的主机上顺利启动,所有模拟灾难发生前的数据完全在二机房的应用中可以访问操作。当前端应用连接到二机房后,业务可以恢复运行。而当一机房恢复后,系统可以在很短时间内迅速切回。在模拟灾难期间在二机房操作的模拟业务数据,系统切回一机房后可同样访问操作。在整个演习过程中,没有观察到复制延迟,Failover期间累积的836MB业务数据量,1分钟内就可重新同步99%的数据,此时原生产服务器即可接管应用。


    在实现硬件资源复用之后,为了进一步实现数据资源复用,使系统的投资回报更加增强,山东联通进行了第二期项目,即容灾和数据复用。其结构示意图如下。



    在该容灾项目中,山东联通利用EMC的另一个软件TimeFinder对数据生成业务持续性卷(BCV),再将BCV数据开放给另外一台主机专门其他应用之用。


    在山东联通,数据争用是系统运行当中的一个问题。比如,营业数据库主要是支持营业系统运行,但是,各个地市分公司为了了解本地市的运营情况,通常需要查询营业数据库以获取最新的运营统计数据。在容灾系统上线之前,各个地市通过直接访问营业数据库来实现上面的功能,这样做一方面对营业数据库带来额外的负载,影响生产运行;另一方面,还存在安全隐患,威胁业务的稳定运转。
TimeFinder软件具有的数据实时备份功能,完全将地市查询和生产系统的数据相隔离,既保证生产性能不受干扰,又确保数据安全,同时为查询应用提供了更大的灵活性,这一应用甚至可以更改原有数据。


五、尾语


    EMC与中国联通山东分公司的合作,是中国联通公司首次采用该容灾系统来保证业务数据的正常运行。借助EMC公司先进的存储技术和存储产品,山东联通实现了一个对生产系统影响最小的容灾系统。该容灾系统充分了利用现有服务器、网络、机房环境、软件和存储资源,最大限度地减少了系统当中的冗余设计,最充分地利用了数据资源,提高投资回报水平。它建设的成功,为国内拥有多个数据中心和它们之间有充足光纤资源的电信企业,提供了容灾建设样板。