早在2003年,我们就呼吁过现代企业需要关注BC(业务连续性)建设。事实上,BC作为业务安全的保护机制,其自身的数据安全也是重中之重。
连续中的漏洞
根据国家信息中心数据修复中心三月底发布的《2006中国数据修复市场报告》,超过八成的大中型企业仅仅具有BC建设的雏形。更加让人遗憾的是,即便是系统雏形,仍然问题多多,其中90%的业务连续性失败出现在内部子系统上。
记者发现,在大部分建设了BC保护的企业中,用户的共同习惯是搭建核心系统双机热备。在备份机器的内部,无一例外都采用了RAID技术。但就是这个RAID,对很多企业的BC安全造成了灾难。
从原理上说,RAID就是一种把多块独立的硬盘按不同方式组合起来的一个硬盘组(逻辑硬盘),提供比单个硬盘更高的存储性能和数据冗余技术,既保证了存取数据的快捷方便和简单地管理客户端,也解决了存储海量数据的问题,同时提供了较高的容错性。它可以在不停机的情况下自动检测故障硬盘、替换硬盘,还可以扩充硬盘容量、重建故障硬盘上的数据。
企业使用RAID的目的,就是利用硬盘空间的冗余实现数据容错,确保数据的安全。然而,RAID并不是一劳永逸的方法,有时也会出错。如果处理不当,有时会丢失企业大量的业务数据。
比如企业最常用的RAID5,在一块硬盘发生故障后,RAID组从“Online”变为“Degraded”方式,I/O读写不受影响,直到故障盘恢复。但是,如果“Degraded”状态下又有第二块盘故障,整个RAID组的数据将丢失。从《2006中国数据修复市场报告》披露的数字看,这个比率相当高,约占到BC失败的一半左右。
另一个BC失败的大头,就是意外事件影响。比如突然断电,或者重新配置RAID阵列,甚至用户的某些错误操作,都可能造成RAID硬盘阵列卡信息的丢失,从而导致数据的丢失。一旦出现类似情况,企业就会遭遇比较严重的数据安全风险。
国家信息中心数据修复中心负责人叶红在接受采访时表示,在企业BC系统发生安全故障的时候,为了最大程度地保护数据安全,必须进行应急响应,重新建立安全冗余机制。相对而言,对于丢失的业务数据,数据修复是比较理想的恢复手段。
杜绝BC安全隐患
《2006中国数据修复市场报告》中披露,常见的BC安全风险分为三类:硬盘阵列出错、信息系统故障、硬盘本身故障。
据悉,硬盘阵列出错的具体原因有阵列卡损坏、阵列卡电池电力耗尽、槽口控制芯片损坏等。虽然这类情况的数据恢复率相当高,但也有失败的案例。据专家介绍,当发生阵列卡损坏时,随意更换新的阵列卡极易造成硬盘ID号紊乱,导致数据风险。而系统故障主要是指系统崩溃时,一些用系统自带功能创建的硬盘阵列或者用第三方软件组建的硬盘阵列会发生数据丢失。此时,阵列日志和相关记录是相当重要的。
在硬盘故障方面,由于管理不善和服务器相对稳定的特性对管理者造成麻痹,发生超出允许数量坏硬盘的事故屡屡发生。一旦RAID阵列出现故障,硬件服务商只能给客户重新初始化或者重建,这样企业的数据安全将会无法挽回。
目前,由于一些企业对BC失败隐患的严重性认识不足,导致了一些不必要的安全事故。而在意外发生后,一些企业也没有相关规范可依。比如常见的RAID5事故,当硬盘损坏超过容错能力时,必须将损坏硬盘的镜像完全提取才能进行最终的恢复。