和力记易容灾助永州农电故障快速恢复

各个电力企业都在加快自己信息化的进程,办公自动化(OA)、MIS系统、电力市场和营销系统、电力调动系统(EMS)、配电管理系统(DMS)、呼叫中心(Call Center)以及电力自动化管理系统已经有广泛的应用。

永州市电业局农电部更是较早地使用了农用售电营销系统,为农电的销售提供相关服务。由于行业的特殊性,电力行业对IT设备提出了高安全性、高可用性、高稳定性的要求。对于更加关乎国计民生的农电,更是丝毫不能马虎。基于此,永州农电的营销系统,购买了IBM两台高性能服务器和一台高性能存储柜作为硬件支撑,采用了支持大数据量的Oracle数据库,又在此基础上搭建了高可用群集系统。另外还在应用前端加装硬件安全防火墙。可谓软硬兼施,滴水不漏。

所以在2008年当我司的销售人员为农电部的负责人推荐我们的备特佳容灾备份产品时,对方当时认为系统已经很完善了,不需要再增加容灾备份系统。

在销售人员向总部求助后,我司技术人员赶到现场与负责人进行了技术细节交流。在肯定了农电营销系统“高安全性、高可用性、高稳定性”建设原则的同时,我司技术人员提到了数据的稳定性问题。也就是说虽然现在硬件防火墙解决了高安全性的问题,双机群集解决了系统高可用和系统高稳定性的问题,但实际上数据的高稳定性并没有解决。很简单的例子,如果说群集所共享的存储柜出现问题,比如多块物理硬盘损坏,或者RAID卡损坏。将导致群集内所有的机器出现读写故障,整个业务将会停止,说白了现在所有的鸡蛋还是放在一个篮子里面的,这是其一。

其二,即使存储柜没有出现物理故障,只是发生了逻辑故障。如数据被误删或者被误改,那么这些删除的数据或者误改的数据将无法修复。

听完我司技术人员的阐述,农电部的负责人深感有理。当即要求我们提供灾备方案。下面图1是实施灾备前的拓扑,图2是灾备后的拓扑。

图1 实施灾备前的拓扑图

图2 实施灾备后的拓扑图

在本方案中,采取了“分身大法”,将本来是群集的“售电营销系统”化整为零。群集中的一台服务器直连存储柜,作为主数据服务器,用存储柜的高性能 IO来保证对外服务的效率。群集中的另外一台服务器分离出来添加所需硬盘(因为农电的核心数据库只有100GB左右,所以无需加太多硬盘,即使考虑到后期 的扩容,1TB的数据就足够5年以上使用)后作为异地的备份机,这里的异地可以先是不同房间甚至不同机架的“异地”。这个意义是完全不一样的,虽然容灾距 离不够远,但是数据分成了两份,再不是放在一个篮子中的鸡蛋。

构架好基本结构以后,在分离出来的主数据库服务器和作为备份机的服务器上面分别部署我司(北京和力记易科技有限公司)的备特佳 (BitGuard)CDP容灾备份系统。以主站(售电营销系统A)和从站(容灾备份系统B)之间双备份型的模式进行数据的实时备份。完全可以做到 RPO=0,保证数据数据的零丢失。与此同时,从站配置接管主站的触发条件,主站因为各种原因宕机时,从站随时转成Active状态完全接管主站的所有业 务,等同于群集的高可用,不同的是有了独立的两份数据。更重要的一点是在备份机上存放了以事件为触发的所有变化点时间戳和具体数据,这样就可以通过回退来 恢复和修复任意时间点的逻辑错误。

用户对这个方案很赞同,当即模拟了环境进行测试,测试结果相当满意。走完商务流程后,我司安排技术人员进行了方案的实施和验收,用户方非常满意。

在2010年的年底,我司正在召开年度会议。当时负责永州农电的销售经理突然收到一条短信。一看内容,首先一惊,是永州农电的某位主任发来的,第一 句是:“服务器宕机啦,盘柜出了问题”。但紧接着不禁放心地笑了,因为紧接着的后半句是:“亏了备特佳接管了业务,我们在读秒,只用了30秒,业务就恢复 了正常”。

作为一家提供专业产品和服务的公司,最高的荣誉就是用户说,你们的东西管用了,帮了大忙。这一点在过去我们做到了,在未来我们会做得更好。