浅析核电信息化数据的容灾备份

一、引言

随着计算能力以及存储技术的日新月异,各种TB级的存储被越来越广泛的使用,这无疑在宣告一个事实:大数据时代已经完全进入到我们的生活。作为核电领域来说,是更早步入大数据时代的领先者。其数据的主要构成除了结构化的各种数据库,还有大量电子文档、图像、视频等非结构化数据。这些数据具有增长速度快、利用率高、安全等级高等特点。如何有效的对这些数据进行容灾备份,确保这些数据不会丢失,提供这些数据的业务不会中断,是核电领域必须考虑的一个问题,这直接关系到了整个核电领域是否能够正常运转。

二、核电信息化数据的特点

相较其它行业来说,核电领域的信息化数据具有自身的特点,主要体现在以下几个方面:

1、数据结构混杂

数据的存在格式一般分为结构化数据和非结构数据,而核电的数据基本上是非结构化存在结构化加工。所谓非结构化存在是指的数据主要以电子文档、设计/工程图纸、实物、照片、影像/声音等各种各样的人文与科学数据为主,而所谓的结构化加工是指的为了方便对非结构数据进行管理和利用,将按照国家核行业标准《核电电子文件元数据》的规定录入结构化数据库中。这就使得核电领域数据的格式复杂多样,结构化数据和非结构化数据混杂。

2、数据要求保存周期长

按照《核电文件档案管理要求》的附录“核电文件归档范围和保管期限”中所提到的保管期限来看,基本上所有的文件都要求至少长期保存,其中一大部分还要求永久保存。

3、数据要求具有抗破坏性

《核电文件档案管理要求》的7.4.5.3中还明确提到“数据备份应该考虑到自然灾害、人为破坏和其它意外情况等因素,采取可靠的备份措施,例如不同媒体的异地备份”。自然灾害很好理解,指的是水、火以及地震等灾难;所谓的人为破坏就是软破坏,主要是指的人为所造成的数据破坏,如对数据进行有意或者无意的修改、删除等操作;其它意外情况范围较广,但也最容易发生,如计划内或者计划外的重启所引起的磁盘电流冲击而导致的数据缺失等。

三、核电信息化数据的容灾备份现状

核电领域对数据的备份一直很重视,但由于选择的产品和备份技术不同,主要存在以下几个问题:

1、数据备份的实时性不强

大部分核电单位对数据采用了全备、增量、差异的备份方式,建立起了备份的作业。这就使得数据的备份行为按照作业的计划执行,备份作业在什么时候开始,数据就在什么时候备份。这就意味着备份的行为是存在着明显的备份时间窗口的,而这种备份时间窗口将会直接导致数据的丢失。假设每周日做全备而周一到周六每天的下午6点做增量备份(如图1),那么如果在周三的5点59分数据出现问题的话,此时最近的恢复点是周二6点的恢复点,这就意味着将要丢失近24小时的数据。

 

 

图1

2、业务连续性不强

数据的作用是提供给应用进行处理和展现,所以数据的好坏将直接决定了应用是否正常。对于传统的全备、增量、差异等备份方式来说,想使用备份数据的时候必须经历一个数据恢复的过程。同样以周日做全备,周一到周六的每天下午6点做增量备份为例。如果当前的时间是周六的上午,源数据的存储介质损坏,导致源数据丢失,此时在修复存储介质后要首先恢复上周日的全备份,然后依次恢复周一到周五的增量,我们且不说周五下午6点到周六上午的数据不能被恢复。就是周一到周五能恢复的数据也要花费大量的时间成本,在此期间应用无法获得正常数据的支撑,业务将会陷入瘫痪状态。

3、不具备防破坏能力。

对于数据的破坏,我们在前面分成了自然破坏、软破坏以及意外破坏。对于自然破坏来说一般采用异地备份的方式,但是对于软破坏以及意外破坏传统的备份方式却很难解决。我们还是以周日做全备,周一到周六的每天下午6点做增量备份为例。假设当前时间是在周五的,上午8点到下午4点期间往数据库中录入了2万条索引记录,而在4点01分,这些数据因为一条SQL语句写错被误删除。那么此时离当前时间最近的是周四下午6点的恢复点,那时候是还没有这2万条数据的。这就意味着被误删的2万条数据将永久丢失。

而对于意外情况,如重启所造成的数据缺失而导致数据库置疑以及无法加载时,也只能恢复到上一个恢复点,而这个恢复点距离故障点有很大的时间窗口,这就导致了破坏无法被完全修复。

四、核电信息化数据可靠灾备的建设目标

综合核电领域信息化数据的特点,在进行容灾备份时,需要重点实现以下建设目标:

1、各服务器上重要数据零丢失

对数据进行自动监控,连续捕获和备份数据变化,只要数据发生变化,便实时、准确的备份下来。保证了数据的安全,一旦出现数据丢失或破坏,可以迅速的从备份机上把数据恢复回来。

2、灾难发生后进行迅速接管和逆向同步

当主服务器出现意外宕机时,备份机可以在一分钟之内接管主服务器的IP,提供对外的所有服务,保证了核心业务连续性,可以提供365天7*24小时的业务不间断的保护。

灾难发生后,原有系统必须尽快恢复。恢复时执行与数据容灾复制相反的过程,即从灾备中心逆向同步到主数据中心,同步完成即可做应用切换,整个系统恢复到原有状态。

3、数据可进行任意时间数据恢复

可按任意操作步数或时间点进行数据快速恢复,回到数据库的任何状态,从而能够找回误删或者损坏前的数据。在恢复的过程中不但保证了数据的完整型,而且能保证事件的完整性。解决了数据逻辑错误。

4、数据的异地容灾

响应《核电文件档案管理要求》,对重要数据进行异地容灾,异地的容灾场地和生产中心需要不在同一个电网、不在同一个江河流域、不在同一个地震带,相隔300公里以上。

五、核电信息化数据可靠灾备的实现技术

对应第四大点提出的建设目标,需要从以下几点进行实现:

1、数据零丢失

由 于传统的全备、增量、差异备份方式存在明显的时间窗口,会导致数据的丢失,基于此需要采用一种连续的保护模式,即CDP(Continuous Data Protection,持续数据保护)模式。但CDP的产品又分化成两大类:一种产品仍旧采用定时备份的模式,只是备份的时间窗口变小了,由原来的一天做 一次增量备份变成一小时做一次甚至半小时做一次,人们将这种CDP产品称为准CDP(Near CDP);另一种被称为真CDP(Ture CDP)的产品,可以完全消除备份窗口(在理想的硬件环境下),RPO(Recovery Point Object 恢复点目标)为零,也就是真正意义上的持续数据保护。核电的数据不能丢,就需要采用Ture CDP的备份技术。

2、业务连续

之 前提到应用的是否正常取决于数据的是否正常。而对于全备、增量、差异等备份方式来说,数据的正常需要一个恢复的过程,很多情况下,这个过程是过长的。这时 候就需要想办法来缩短数据恢复的时间,就是缩短RTO(RecoveryTime Object 恢复时间目标)。缩短RTO的有效方式就是实时恢复,数据从主机备份到备份机后,随时进行恢复,等待应用对数据的调用,是一份最新、完整的Standby 数据。而不是出了问题以后再进行恢复,那样必然会导致RTO太长。

3、有效解决软破坏

很多人把实时备份和 CDP之间画了等号,这是两个不一样的概念。实时备份只是消除了备份窗口,有变化就备份。而据SNIA(Storage Networking Industry Association 全球网络存储工业协会)的CDP特别关注小组在2011年发布的一份CDP研究文档称:“可以捕获任意的数据变化,至少可以备份到另外一个地方(异地容 灾),可以恢复到任意时间点。只有全部满足以上这三条要求的CDP产品才能称为真CDP。依据这样的标准,复制类技术(同步以及异步镜像等。因为镜像只有 一份数据,即使有回退点也是有限个点快照)、快照技术(指针快照以及分割镜像快照等。因为快照存在时间间隔,两个快照之间的数据可能丢失。且快照频繁读取 操作系统,在数据、文件、应用和系统间缺乏嵌入式关联。)以及任何有备份窗口的计划备份都不属于CDP产品。”

由此可见,CDP一定能实 现RPO为零的实时备份,但是能实现实时备份的产品未必是CDP,因为所谓的实时备份产品也未必能实现恢复到任意时间点。而恢复到任意时间点是解决软破坏 的唯一办法。数据在什么时候被误删除、被篡改,是无法预知的,不可能实现在删除、篡改之前做好一个恢复点。这就需要恢复点是任意的,这样才能保证100% 的回到删除或者篡改之前的状态。因为任意点里面必然含有了删除或者篡改之前的恢复点。

而对于意外事件来说任意时间点回退也是完美的解决办法,数据出现缺失导致的数据库置疑只需要通过恢复到最近的一个点就可即保证数据可用又保证数据最新。

4、无限增量降低灾备成本

异 地灾备最重要的资源就是网络资源,传输带宽太低达不到实时备份的效果,传输带宽太高则成本太过昂贵。这就需要在异地灾备数据传输的过程中采取最优的方式, 降低单位时间内的数据传输量。而对于CDP来说是采用的无限增量传输模式是将随时产生的数据实时传输出去,而不是在某一时间点再进行集中传输,这样就大大 降低了对网络资源的占用,从而实现了低成本灾备。

综上所述,要想实现核电数据的可靠性灾备需要满足:防止数据丢失、防止业务停顿、防止数据破坏。立足这三点之上选择合适的灾备产品,如北京和力记易科技有限公司的UPM备特佳容灾备份系统。就能将核电的数据立于铜墙铁壁之内,万年无失!