赛门铁克的保单:青岛市社会保险容灾系统案例

    未来的社会,是骨架建立在信息上的帝国,然而信息在充满蓬勃活力的同时,其本身也是敏感而脆弱的,这就使得“未雨绸缪、居安思危”成为现代成熟企业的重要准则,而这一点对于“社保”这类系统而言,更显得尤为重要。

    从“可选”到“必选”

    作为青岛市劳动和社会保障信息系统的副处长张帅来说,怎样万无一失地保证业务系统的不间断运行,一直是最让他牵挂的事情。

    说起来也难怪,一方面,现代企业和社会,对于信息系统的依赖性越来越强,并逐步成为其生存运转的命脉:根据权威调查,企业如果在灾难后两个星期内无法恢复信息系统的使用,超过80%的公司业务将不得不停顿下来,而这会直接导致近一半的公司永远关闭。如果信息系统停顿的时间超过一个月,那么幸存的公司不会超过20%。

    另一方面,火灾、水灾、爆炸、地震、雷击或设备线路故障等自然原因以及黑客破坏、人为破坏等非自然原因引起的灾难,又时刻萦绕在我们的周围,使我们无法做到高枕无忧。如果说对于大多数企业而言,灾难意味着财产和企业名誉的损失,那么对于“社保”这样重要的系统,更要考虑到重大的社会影响和政治影响,这是一个任何人都难以承担的巨大责任。

    据张帅介绍,关于社保系统安全与持续运行的问题,很早就列入了他们重点工作的日程表。青岛市劳动和社会保障信息系统采用了全市大集中模式,并且包括多个业务系统;同时,业务系统的数据流量、数据处理量和数据存储量也越来越大。因此,业务系统的稳定与否、系统的保护和数据的保护是否健全,已成为青岛市社会保障业务系统正常运行的关键。“由于容灾备份涉及到系统的安全运营,而本身它又是面向未来发生概率较小的事件,因此我们更需要谨慎,寻找一个可靠稳妥,切合我们工作实际需求的解决方案。”

    从现有的系统情况来看,数据集中处理的实施,让劳动保障的业务运作、管理模式将越来越依赖于计算机系统的可靠运行。青岛市各级劳动保障机构所提供服务的连续性以及业务数据的完整性、正确性、有效性,会直接关系到业务的生产、管理与决策活动。

    随着时间的推移,对网络、通信线路、服务器主机等关键硬件设备以及数据库,应用服务器等软硬件进行相应的故障保护和容灾备份部署,已经由原来的“可选”变成了“必选”。因为一旦集中处理体系的任何一个环节因为火灾、地震等导致异常情况,都会使正常业务无法正常进行,造成重要数据的丢失、破坏,使相关的青岛市各级劳动保障部门的劳动保障经办业务系统中断,从而最终导致无法预计的后果。

    于是,寻找适合的灾难备份系统,成为他们当时最为迫切的任务。

    “适合”就是第一准则

    “虽然提供相关解决方案的厂商有不少,但是选择起来却颇费工夫。”据负责该项目后期实施的项目经理赵军介绍,“由于容灾所承担的是青岛社保系统最关键的核心业务,其重要作用勿庸置疑,容灾本身的复杂性也是十分明显的,这就决定了该容灾项目并不是简单的产品方案采购,而是一项需要认真对待的系统工程。”

    在考察了多家企业后,用户最终把目光锁定在了赛门铁克的身上,除了因为赛门铁克旗下的VERITAS远程容灾解决方案早已在业界声名远播,更重要的是,他们能够从客户的角度考虑问题。赛门铁克的工程师在初期接触项目时就建议用户:备份容灾是涉及到众多技术以及众多产品的解决方案。因此性能、灵活性以及价格都是必须考虑的因素,需要根据用户的实际需求量身打造,而不是盲目选用最贵的产品。许多用户的生产站点都是经过长期积累、多次改造后形成的,对于特殊的应用还采用特定的设备。那么当考虑构建容灾站点时就必须把所有这些情况都考虑进来??“选择适合自己的”是构建容灾方案的一条基本准则。当然,赛门铁克也建议与此同时用户还要考虑长远一些,尽量采用先进而不是将要淘汰的技术,毕竟冗余站点与生产站点一样会长期使用。

    从具体的项目需求来看,青岛市社会保障信息系统的故障恢复和灾难备份系统的建设要求采用应用级别的容灾方案,在系统建设过程中,不仅考虑数据中心端的容错,还应该考虑对重要关键业务的系统进行异地容灾备份和对重要数据的定时、实时备份。这样不但保证了用户的关键业务数据的不丢失性和高安全性,而且还避免了当生产中心发生意外灾难时(如生产中心停电时间超过UPS保障时间1个小时),业务中断时间过长等问题,将损失降到最低点,同时保障业务运行的持续性。

    “社保”的保险方案

    在经过与用户的多次讨论和实际演练之后,最终选择的解决方案技术条理已变得十分清晰。青岛社保容灾系统主节点为青岛市劳动局的中心机房,同时,为了能够在灾难发生后,业务系统依然可以不间断地被访问,其在青岛市社保机关大楼建立了一个备用系统,以便适时接管业务。青岛市社会保障信息系统数据中心与灾备中心之间采用专线连接方式,通过主机逻辑卷远程复制功能,实现数据的同步复制。




    数据中心数据库服务器采用双机集群配置,磁盘采用RAID技术提供磁盘镜像,并配备磁带库数据备份系统。当某一通信线路、路由器、防火墙、交换机、服务器出现故障,相应的备份通信线路,以及冗余的路由器、防火墙、交换机、服务器接管工作。当数据磁盘出现故障时,可以采用RAID磁盘镜像以及数据备份系统进行数据恢复。

    在灾备中心相应配置一台数据库服务器、一台应用服务器、一台磁盘阵列、一台备份服务器、二台网络交换机,二台路由器。

    灾备中心的业务数据库和应用服务器采用与生产中心性能一致的主机系统,进行单主机配置,磁盘采用RAID磁盘镜像。当由于生产中心的灾难造成数据丢失时,灾备中心可以快速恢复生产中心的数据,以便快速恢复应用。

    为保证远程数据同步复制的实现, 两个节点间通过10M SDH网络互连, 两个节点之间采用VERITAS的数据复制管理软件VERITAS Volume Replicator,将数据库和应用数据作远程复制。VVR采用可靠的连接和监听协议,保证远程备份站点与本地逻辑卷数据的一致性。该软件能容忍网络延迟:在同步模式下,若网络发生堵塞,可自动切换到异步模式,当网络恢复后,再重新同步。

    为了能够监测应用系统的运行情况,并能够在灾难发生时实现应用系统从青岛市劳动局中心机房到备份中心的切换,青岛社保选用专门的VERITAS Global Cluster Manager广域网集群管理软件来实现多集群的管理和应用系统的容灾。GCM主要管理由青岛市劳动局和青岛市社保机关大楼两个节点组成的广域集群,集中管理广域范围的网管应用,并结合VVR做应用级的容灾,在青岛市劳动局和青岛市社保机关大楼之间做自动的或管理员确认的或计划内人工发起的网管应用切换。

    VERITAS的GCM还可以在青岛市劳动局和青岛市社保机关大楼之间建立心跳线以检测两地的系统,一旦青岛市劳动局系统发生故障,GCM将自动或由系统管理员确认或手工将网管应用在青岛市社保机关大楼接管运行。由此保证网管系统的不间断运行。另一方面,对于计划内的停机情况,如青岛市劳动局机房的地点整体搬迁,也可以手工将网管系统切换到青岛市社保机关大楼运行,直到青岛市劳动局的新机房建立好后再将网管系统切换回青岛市劳动局。

    该容灾备份建设结构可满足未来几年业务增长的需要,整个结构具有非常好的扩展能力以适应业务发展的需求。当业务增加、数据传输量增大、数据处理量增大、数据存储量增大,可以通过增加相应的硬件设备来实现负载均衡、分布服务、高性能运行和容错、容灾。该系统投入运行以来, 运行正常, 性能良好。最终为青岛市劳动和社会保障核心应用系统提供了7×24小时全面的数据和应用安全保障。

    附: