大数据:保证灾备系统有效性的四个要点

灾备系统的有效性问题涉及到灾备建设的实际目标和符合目标的灾备技术路线,清楚认识灾备系统的有效性问题人们必须领悟到一个更深层次的道理:灾备系统的建设要求灾难防御全方位,不能只防小概率的自然灾害,更要防止概率大的设备故障和逻辑故障,严密的多方位防护网才是取胜之道。

建设一个永不失效的灾难防御体系,需要踏踏实实地从以下四个方面着手:

1) 防御灾难的目标要细化

不能仅笼统的说大灾防御,而对于各种设备和网络的易发事故却缺少针对性,甚至于认为备份系统就已经完成了这类防御目标,这只能说继续走着传统失灵的众多灾备建设的老路。在一些传统的早期灾备系统建设中,的的确确只有大灾的应急机制,而根本没有把频发的故障列入防御目标,这本身已经造成了我国许多灾备建设的资金浪费,导致必须推到重建灾备系统,或者重复投资建立更高级的防护体系。在信息系统的安全事故中,比较容易导致灾备体系不作为的事故往往是:数据库系统瘫痪无法运行、数据文件损坏或者丢失、存储设备故障等等。在我国,已经有多个企业领教了这类故障的破坏力。

2) 建设分层次的恢复体系

人们往往认为,建设异地灾备中心就是什么故障都在异地运行或者恢复。这着实是一个特大的误区。人们必须知道,建设异地灾备中心只能防御大灾。启用异地灾备中心,不仅要经过严格的业务连续性流程的审核(例如预警机制和宣告机制),而且要动用大量的灾备中心处理人员,数据向生产中心的恢复也是复杂而漫长的过程。而部分灾备技术路线无法保证启动的应用系统的数据一致性和完整性,这也是很多完成建设的企业一般不启动灾备中心或者恐惧灾备中心启动的重要原因。而各类易发的故障(例如逻辑故障、设备故障),如果其恢复依赖在灾备中心的启动和修复上,无疑是风险放大、家丑外扬之举,恢复的效果也根本无法预料。这就是故障发生后,灾备系统不作为的众多因素之一。

怎么办? 根本解决就在于启动先进的灾备技术路线,完成分层次的恢复体系,就是设备故障(包括逻辑故障)本地修复、系统灾难异地启动这十四字方针。

目前,部分先进的灾备技术(如飞康的持续数据保护灾备技术)具备瞬间的本地修复能力,这样,就可以在极短的时间完成设备故障的应急响应(一般甚至于可以达到几秒钟)。对于业务体系而言,业务连续性的保证化解了内部故障带来的可能造成的巨大社会风险和经济风险(例如大量的索赔等)

3) 修复技术采用先验证技术

以往,人们认识的修复技术往往是“回存” 技术,就是要把备份数据介质倒回生产系统中,然后等待恢复的效果和业务的启动,这种技术存在众多风险。首先是在漫长的数据恢复之前,完全无法预料恢复时间和恢复可靠性。其次,一旦恢复成功,却发现恢复的数据并非自己需要的时间点,或者需要的数据不存在,这已完全无法回退到初始状态,系统将进入更为严重的不可控状态。在这类技术中,业务连续性根本就不在考虑范围,人们盼着数据能够回来就已经兴高采烈了,哪里还能奢望瞬间业务继续运行呢?

目前,许多行业的领导者已经将目光延伸到先验证的灾难恢复技术上,这类技术的特点就是在出现数据损坏时,可以立即提供原格式的数据时间点供验证,业务系统立即运行,在确保了业务连续性的极为重要的目标,此后,可以利用其余空闲时段,再行修复生产设备。这一体系被称为“先生产,后修复”。

4) 注重传输带宽的研究

异地容灾的一个重要领域就是传输带宽技术,这一技术的不足往往可以导致由于带宽不足造成数据延迟过大,造成灾备中心数据不可用等等。许多灾备技术路线都在传输带宽的精简技术上练内功,比拼能力,这是十分正确的。有效的精简带宽传输技术能够使得灾备建设的成本大为降低,也可以使灾备中心的数据实时性大为提高,对于数据向生产中心的恢复也能获得十分有效的速度提升。