联合调查显示灾备规划、维护、测试能力仍需提高

市场研究机构Forrester和美国《灾难恢复杂志》(Disaster Recovery Journal, DRJ)对部分DRJ会员进行了一次灾难恢复调研。调研的对象包括各个行业,其中,有33%来自拥有0至999名员工的企业,25%来自1000到4990名员工的企业,20%来自5000-19999名员工的企业,22%来自20000名员工以上的企业。36%的被调查者来自年营业额在5亿美元以下的企业,10%来自年营业额在5亿至9.99亿美元的企业,19%来自年营业额在10亿至49.9亿美元之间的企业,8%来自年营业额在50亿至100亿美元之间的企业,15%来自年营业额100亿以上的企业。最终的调研结果显示:只有三分之一的企业在持续更新灾难恢复计划,而64%的企业不知道他们最近的一次灾难或中断带来的损失究竟是多少。这些数据表明,企业在灾备规划、维护和测试方面的能力有待进一步提高。

灾难恢复支出总体偏低

调研结果显示,大部分企业在灾难恢复方面的支出偏低。其中,45%的企业每年在灾难恢复上的支出不超过50万美元,20%的企业在50万至149万美元之间。而且,调研结果显示,企业灾难恢复支出是随着企业营业收入的增长而增长的,企业营业收入越高,在保护业绩不受运营中断影响方面的投入就越高。

灾难恢复规划、维护和测试能力有待提高

对有效的灾备来说最大的挑战可能是规划、维护和测试。通过对客户进行调查和咨询,Forrester发现很多企业没有一个正式的计划,即使他们有计划,也不会引进日常配置管理和变更管理的流程,并且也不会进行测试。根据Forrester的《2007年第3季度企业硬件调研报告(北美和欧洲)》,大约23%的企业(1000名员工以上)从来没有测试过他们的灾难恢复计划。相比之下,Forrester在这次调研中发现:

  大部分企业拥有正式的灾难恢复计划,大约79%的被调查者已经拥有正式的灾难恢复计划,另外有19%计划下一年度完成一个正式的灾难恢复计划。

  只有三分之一的企业在持续更新计划,计划维护的最佳实践将持续更新作为配置管理和变更管理的一部分,另外,有14%的被调查者表示至少每季度对他们的计划进行一次更新。

  三分之一的企业每年至少对他们的计划进行两次测试,其间还会对计划的某些部分进行补充测试,50%的企业每年测试一次,14%从来没有进行过测试。

企业倾向于专用基础设施

调研结果显示,57%的被调查者使用专用的IT基础设施,包括自建基础设施(34%),共享基础设施(11%),以及服务提供商的基础设施(12%)。使用专用基础设施,企业可以更快地完成灾难恢复,并使用复制技术来提高恢复点目标。

在生产中心和灾备中心之间的距离上并没有一个统一的规定,但必须保证有足够距离使得两者不会受到同一灾难事件的威胁,同时也要衡量恢复需求,技术限制和成本。调研结果显示,DRJ会员与之前被调查的企业决策者们相比倾向于更远的备份距离。根据Forrester在《2007年第3季度企业硬件调研报告(北美和欧洲)》中的调研结果,大约48%的企业灾备中心与生产中心距离在50英里以内。相比之下,Forrester发现只有35%的DRJ会员希望灾备中心与生产中心距离在50英里以内。

越来越多的应用被认为是关键应用

调研结果显示,企业很少将应用认定为非关键的。平均而言,被调查者将大约35%的应用列为关键应用,37%列为次关键应用,28%列为非关键应用。

在调查结果中,磁带仍然是主要的恢复技术。对所有应用和数据,无论其关键性如何,磁带仍然是一个重要的灾备手段。这意味着在复制技术逐渐普遍的同时,企业仍然在使用传统的备份方式作为一个防范措施,以确保他们拥有某一特定恢复点以前的数据。

复制技术的使用越来越普遍。复制技术不再仅仅用来备份关键应用,调研结果显示,企业的次关键应用业也在使用同步和不同步的复制技术进行保护。

恢复时间以小时为单位

由于使用了专业的IT基础设施来进行灾难恢复,以及复制技术被普遍使用,企业的恢复时间目标和恢复点目标现在都以小时为单位。65%的被调查者表示他们丢失的关键数据将小于10个小时,46%的被调查者表示他们能够在10个小时之内恢复关键应用。

大多数灾难事件和中断可预防

大约72%的企业在过去5年内从来没有正式“宣告灾难”,但企业不应该对此项数据感到欣慰,这意味着可能有28%的企业有在过去5年内发生过灾难或者中断,还不包括那些运营中断但是没有影响整个数据中心的事件。调研同时发现:

  最常见的灾难原因是电力中断。42%的被调查者表示电力中断是灾难事件和业务中断的最主要原因,其次是IT硬件故障和网络故障。

  大多数企业可以在灾难发生后10个小时内恢复运营。在调查中表示曾进行过灾难宣告或经历过业务中断的190位被调查者中,62%在10小时内恢复了运营。

  大多数企业在一次灾难中丢失的数据少于10个小时。在调查中表示曾进行过灾难宣告或经历过业务中断的190位被调查者中,83%丢失的数据少于10个小时。

  64%的企业不知道他们最近的一次灾难或中断带来的损失是多少。由此可见,规划、维护、测试和响应方面虽然已有所提高,但大多数企业对灾难事件所带来的损失仍无法明确地计算出来。对另外12%知道他们损失情况的企业来说,一次灾难的平均总损失大约是190万美元。

企业仍需努力提高灾备能力

企业对现在的灾备状况很有信心,那些曾经经历过灾难或中断的企业大多以小时来衡量他们的恢复能力。除此以外,推动灾备发展还有更为重要的因素。

当被调查者被问及是什么在提升他们的灾备需求时,受信责任排在最高位,其次是保持企业在线和保持竞争力的需要,以及运营中断的损失。调研结果显示,灾备意识及其重要性正在因IT以外的因素推动而逐渐被接受,并且已经成为战略高级管理人员、股东、合作伙伴和客户优先考虑的问题之一。