随着近年来国内各行业信息化技术的发展,以及信息化体系在国民经济的日臻重要的地位和影响力,信息系统自身的安全运行日益成为各企业决策层的目光聚焦点。尤其是国内和国际的一系列安全事件和自然灾害频发的现实,使得人们再也不能对于企业自身的命脉—数据和连续运行能力无动于衷。信息系统的安全受到的威胁自然会导致“维稳”的努力受到威胁,而此后必然会传导到外部和社会,信息化系统灾难导致的严重后果不可小视。建设一个能够有效防范各种灾难威胁的信息化系统对于社会的和谐和稳定以及避免群体事件的发生都将是一个功在千秋的举措。
但是,往往事与愿违,当很多人们着手开始甚至于花费了巨额成本完成了各种目标的灾难防御体系的建设之后,却出现了“有灾无备”,对灾难不免疫的不良后果,其投资损耗和社会影响都难以估算。近期,国内出现了典型的类似事例,例如一些企业在建设灾备系统之后,甚至于通过了国家有关部门的《内控规范》和《应急预案》演练之后,仍然发生了难以预料的灾难后果,往往一个小小的故障就可以导致长时间的业务停顿,令人对于应急响应体系的建设标准产生了疑问,更不要谈启动灾备中心运行业务,那似乎成了很多人的摆设,问题出在了哪?
这里面,我们需要对于灾备建设的决策者们说,这就是灾备建设的有效性问题.养兵千日用兵一时,缺乏有效性的灾备系统其后果难以预料,不仅达不到保障运行和灾难防范的目标,其自身对于业务系统的影响也开始产生副作用。近年来,许多行业的灾备体系的规划者们都在向笔者询问,如何建立灾备体系?到底是灾备技术路线重要还是灾备流程的严密组织重要?如何选择适合的灾备技术路线?灾备建设就是简单的建设一个异地灾备中心吗?
首先,灾备系统的有效性问题涉及到灾备建设的实际目标和符合目标的灾备技术路线,其次,认识灾备系统的有效性问题人们必须领悟到一个更深层次的道理:灾备系统的建设要求灾难防御全方位,不能只防小概率的自然灾害,更要防止概率大的设备故障和逻辑故障,严密的多方位防护网才是取胜之道。具体来说,建设一个永不失灵的灾难防御体系,需要踏踏实实地进行以下环节的研究:
1) 防御灾难的目标要细化
不能仅笼统的说大灾防御,而对于各种设备和网络的易发事故却缺少针对性,甚至于认为备份系统就已经完成了这类防御目标,这只能说继续走着传统失灵的众多灾备建设的老路。在一些传统的早期灾备系统建设中,的的确确只有大灾的应急机制,而根本没有把频发的故障列入防御目标,这本身已经造成了我国许多灾备建设的资金浪费,导致必须推到重建灾备系统,或者重复投资建立更高级的防护体系。在信息系统的安全事故中,比较容易导致灾备体系不作为的事故往往是: 数据库系统瘫痪无法运行、数据文件损坏或者丢失、存储设备故障等等,在我国,已经有多个企业领教了这类故障的破坏力。
2) 建设分层次的恢复体系
以往,人们往往认为,建设异地灾备中心,就是什么故障都在异地运行或者恢复。这着实是一个特大的误区。人们必须知道,异地灾备中心,其建设宗旨只能是大灾的防御,启用异地灾备中心,不仅要经过严格的业务连续性流程的审核(例如预警机制和宣告机制),而且要动用大量的灾备中心处理人员,数据向生产中心的恢复也是复杂而漫长的过程。而部分灾备技术路线还不能保证启动的应用系统的数据一致性和完整性,这也是很多完成建设的企业一般不启动灾备中心或者恐惧灾备中心启动的重要原因。而各类易发的故障(例如逻辑故障、设备故障),如果其恢复依赖在灾备中心的启动和修复上,无疑是风险放大、家丑外扬之举,恢复的效果也根本无法预料。这就是故障发生后,灾备系统不作为的众多因素之一。
怎么办? 根本解决就在于启动先进的灾备技术路线,完成分层次的恢复体系,就是设备故障(包括逻辑故障)本地修复、系统灾难异地启动这十四字方针。
目前,部分先进的灾备技术(如飞康的持续数据保护灾备技术)具备瞬间的本地修复能力,这样,就可以在极短的时间完成设备故障的应急响应(一般甚至于可以达到几秒钟)。对于业务体系而言,业务连续性的保证化解了内部故障带来的可能造成的巨大社会风险和经济风险(例如大量的索赔等)
3) 修复技术采用先验证技术
以往,人们认识的修复技术往往是“回存” 技术,就是要把备份数据介质倒回生产系统中,然后等待恢复的效果和业务的启动,这种技术存在众多风险,首先是在漫长的数据恢复之前,完全无法预料恢复时间和恢复可靠性。其次,一旦恢复成功,却发现恢复的数据并非自己需要的时间点,或者需要的数据不存在,这已完全无法回退到初始状态,系统将进入更为严重的不可控状态。在这类技术中,业务连续性根本就不在考虑范围,人们盼着数据能够回来就已经兴高采烈了,哪里还能奢望瞬间业务继续运行呢?
目前,许多行业的领导者已经将目光延伸到先验证的灾难恢复技术上,这类技术的特点就是在出现数据损坏时,可以立即提供原格式的数据时间点供验证,业务系统立即运行,在确保了业务连续性的极为重要的目标,此后,可以利用其余空闲时段,再行修复生产设备。这一体系被称为“先生产,后修复”。
4) 注重传输带宽的研究
异地容灾的一个重要领域就是传输带宽技术,这一技术的不足往往可以导致由于带宽不足造成数据延迟过大,造成灾备中心数据不可用等等。许多灾备技术路线都在传输带宽的精简技术上练内功,比拼能力,这是十分正确的。有效的精简带宽传输技术能够使得灾备建设的成本大为降低,也可以使灾备中心的数据实时性大为提高,对于数据向生产中心的恢复也能获得十分有效的速度提升。
从上所述,灾备技术路线的选择和详细和完善的建设目标,是灾备系统建设的两大筹码,直接影响到灾备建设的最终效果,考虑的不周和缺陷将直接导致灾难或故障发生时业务系统心脏的长时间停转(不作为),从而引发众人的更多质疑,不是已经建立了备份系统了吗?不是已经通过应急预案的内审了吗?这种质疑当然会令最初的建设者们十分难堪。所以,选择具备先进性和有效性的灾备技术路线(例如前述的飞康持续数据保护技术等),将能够带领人们克服以往对于灾难和故障的恐惧,提升人们的信心,灾难对于人们的心里恐吓将会荡然无存,信息化系统也将驶向安全和平稳的康庄大道。