正如我们在这几年间所看到的,自然灾害可以让各类组织长期歇业。因为地震、飓风、暴风雪或其他自然灾害可以在短时间内便将企业的数据中心和其他设施毁于一旦,所以完备的灾难恢复计划对企业来说是生死攸关的。
灾难恢复(DR)是业务连续性(BC)的一个子集,和BC一样,它正越来越多地受到一些IT业重大技术趋势的影响,其中最重要的就是
● 云服务
● 服务器和桌面虚拟化
● 工作场所中移动设备的扩散
● 社交网络作为业务工具的日益普及
这些趋势迫使很多组织必须重新思考如何制定、测试和执行其DR战略。我们之前曾经考察过这些趋势如何影响IT业务的连续性,和业务连续性一样,这些趋势对于DR的影响也是相当大的。此外,IT和安全官员们必须要考虑如何最好地利用这些趋势的发展,以便能够提高其DR努力,而不能使其更复杂化。
下面我们就来看看这四大趋势对于IT灾难恢复究竟会有怎样的影响。
云服务
当组织在使用更多的内外部云服务资源时,它们会发现这些资源可以成为灾难恢复战略的一部分。
纽约州的玛丽亚教会学院(波基普希)为学院内部的用户和客户提供很多种私有云服务。它还为17个学区和一些大企业客户做托管服务。
该学院的CIO兼IT副总裁Bill Thirsk称,“云配置可以让我们在多租户系统上快速、简单而且在不中断系统的情况下进行软件升级。”
“由于我们的存储是虚拟化的,所以可以跨多个SAN复制数据,这些SAN部署在园区里的多个场所以及我们在纽约州雪城的数据中心里。如果一个SAN出现故障只须将其生产运行切换到另一个SAN上去即可。”Thirsk说,因为玛丽亚教会学院可以跨多个学区执行服务器级的备份,所以一旦有事件发生,它们便可将数据从一个服务器平台转移到另一个平台上去。
Forrester负责基础设施及运营的资深分析师Rachel Dines认为,基于云的DR服务有着巨大的潜在价值。
到目前为止,Dines说,这些服务的采纳率还是很低的,“但是在不少的最终用户那里,感兴趣的人很多,而且有相应的规划正在制定中。和购买资源防范灾难的做法不同,云计算和其按需付费的模式允许企业仅为灾难或测试期间所使用到的服务器付费,便可长期使用云数据存储了。”
Dines说,基于云的DR让企业具备了降低成本且快速恢复的潜力,测试更简单,合同条款也可以更灵活。
在Forrester2012年的一份报告中,该公司称,基于云的DR拜托了一些传统的方法,为组织提供了一种切实可行的替代方案,让其能够完成之前由于资金问题或者任务量过重而无法实现的灾难恢复计划。
从DR的角度看,云计算的最大消极面可能就是和安全以及隐私管理相关的问题了。
Gartner研究副总裁John Morency说,“我们会不断看到出现一些重大事故,例如2011年都柏林的雷击事件导致亚马逊和微软的云服务中断,还有其他一些暂时性的服务缺失。不应想当然地认为云是百分百可靠的。如果组织需要百分百的可用性,就必须认真地思考为了应对这些偶发事件他们到底需要什么。”
Morency说,数量越来越多的大型企业正在将其复杂的IT基础设施放入私有云中,并将私有云作为其灾难恢复战略的组成部分,而不是依赖公有云服务。“他们所担忧的是在灾难期间,如果公有云服务提供商不能提供服务的话,他们的数据是不是还在云中。”
Morency指出,这种情形只有在DR订阅服务所提供的是在一个具体的地理场所有物理空间和实际设备时才会出现。“由于公有云具备更为分布式的和更为虚拟的特性,这种情形很少会出现。”
Morency说,对于传统的灾难恢复服务提供商来说,他们在进入云的时候必须要测试其备份能力是不是更灵活,成本更低。
虚拟化
对很多组织来说,服务器虚拟化已成为其DR战略的一个关键组件,因为服务器虚拟化使计算资源的利用有了更大的灵活性。
“虚拟化在加速实施灾难恢复战略和灾难发生时的实际恢复方面非常有潜力,”独立的信息安全咨询师,曾担任过Expedia的前任CISO Ariel Silverstone说。
Silverstone认为,“虚拟化还有能力让灾难恢复更像是一项IT功能,而不是企业的一项审计功能。如果有了正确的策略和流程,那么虚拟化灾难恢复就可以自动化部署任意服务器。”
虚拟化可以让企业创建整个数据中心的映像,可根据需要部分或全部地快速激活,而且成本也相对低廉,Silverstone说。
对于电子系统测试设备供应商Teradyne来说,虚拟化是可以提高DR能力的赋能者,Teradyne CIO Chuck Ciali说,“我们利用虚拟化来做DR是意义重大的。利用VMware的虚拟化技术,Teradyne可以在出现硬件故障时无缝地切换到冗余的刀片服务器上去。还可以使用虚拟化技术,在灾难来临时将工作负载从商用数据中心转移到研发数据中心去。”
Ciali说,“这让我们关键性工作负载的恢复时间从之前基于磁带模式的数周或数天缩短到现在的数小时,每年的DR合同服务费用节省了30万美元。”玛丽亚教会学院已经部署了虚拟化,其好处是避免了系统的不可用。Thirsk说,“我们要做的就是避免任何可能引起用户不满、接入中断或功能损失等事件的发生。为了做到这一点,我们在处理器、网络拓扑和存储上做了大量的虚拟化工作。”
Thirsk称,因为玛丽亚学院的IT系统可提供虚拟服务器、虚拟网络和虚拟存储,“所以我们得系统可确保各种行为可以非常快速地进行。”
“如果在任何测试点上什么事情出现了可怕的错误,我们就可以决定丢弃它,重新开始,或者继续运行,这样做在系统端毫无问题。”
Dines说,总体而言,服务器虚拟化会让DR变得更容易。“因为虚拟机比物理机更容易移植,很容易在不同的硬件上启动,如今有很多企业都在把虚拟化作为其恢复计划的一个关键组件。”
Dines说,如今市面上有不少产品都可以执行诸如虚拟机的自动快速重启、用异构存储在hypervisor层上复制虚拟机,以及将物理或虚拟机备份转变成可重启的虚拟机等操作。
虚拟化也有缺陷,因为虚拟化的普及在很多企业中引发了虚拟机的蔓延,这会让DR变得更复杂。Silverstone说,“拥有虚拟化架构的企业都有能力创建更多的镜像,甚至包括他们不知道或没有计划创建的虚拟机镜像。这些镜像创建起来非常容易。”
另一个可能的负面因素是,虚拟化可能会让组织产生一种虚假的安全感,“人们可能会不太想制定正确的灾难恢复计划,以为所有事情虚拟化都能搞定。要知道肯定有一些物理机由于种种原因不太可能被虚拟化,所以虚拟化无法完全取代正确的灾难恢复计划和测试需要。
工作场所的移动设备
从灾难恢复的观点看,移动设备如智能手机和平板电脑的日益普及会使IT运营和业务流程即便在灾难发生之后也能持续。
帝国糖业公司负责销售计划、供应链与IT的副总裁George Muller说,“人们总会随身携带自己的移动设备。我虽然不会去哪儿都带笔记本电脑,但如果突然发生了灾难,我的衬衫口袋里或许会装着黑莓手机。能够以无所不在的方式带来连接性的任何东西都是好的。”
移动设备普及的一个积极影响就是,它给了人们更大的能力,可以在紧急情况下使用这些设备进行远程工作和通信,英特尔IT集团副总裁兼CISO Malcolm Harkins说。
不过移动设备的扩散也多少会让灾难恢复变得更复杂,Dines说。“会有越来越多的移动设备进入数据中心基础设施,例如移动设备管理服务器和黑莓企业服务器等,这些设施通常都是非常重要的。它们会成为必须正确规划并加以保护的系统。”
灾难恢复中的移动性可能产生的另一个负面影响是,一些关键的企业应用,如薪酬系统可能无法在移动设备上运行,Silverstone说。
Harkins指出,还有一些潜在的安全风险,例如未加密的移动设备可能丢失或被盗,通过这些设备对企业网络的未授权接入等。但是这些风险可通过远程擦除设备上的数据而得以克服。
社交网络
和移动设备一样,社交网络可以给人们提供另外一条在灾难期间维持联系的途径。
Morency说,“不过得假定要么公共网络或无线网络仍然可用,你才能利用社交媒体进行沟通,可以将其作为内部邮件无法使用时的一个替代品。如果你使用的是Gmail,那问题不大,但如果你用的是Exchange内部邮件或目录服务,那么社交媒体就可能是很有用的替代品。”
在玛丽亚学院最近执行的一次灾难测试中,Thirsk说,“我们好奇地看到了一旦发生真实的事件时人们是如何使用社交网络的。”该学院的IT部门一大早就启动了一次没有提前宣布的灾难预演。
首先,Thirsk发了一条信息说学院正在经历一次严重的系统失灵。而由于建筑物的限制,员工们没办法去工作场所或数据中心报到。“我们关掉了企业通信系统,然后观察员工们的反应。”
各级管理人员很快就开始通过外部邮件账号、聊天室、Facebook和Twitter开始和其下属进行沟通。“他们甚至找到了我在校外的个人邮箱账号,开始给我发信息,”Thirsk说。
在20分钟内,所有员工都向设在学院图书馆内的一个指挥中心报了到,并从那里接受任务,执行了一系列的系统检查、验证和处理。“所有行动都是利用替代的通信方法完成的,”Thirsk称。
Forrester说社交网络所以能够在应急通信战略中发挥作用,有好几个原因。首先,社交技术的普及度在增长,大部分员工与客户都是一些著名社交网站如Twitter和Facebook的常客。
其次,社交媒体渠道基本上都是免费的。在Facebook、Twitter或Yammer上设置profile、招聘员工、发送状态更新等,成本都很低廉。
社交媒体网站还可促进与外部社区的海量通信。不过在一般情况下,出现危机时的及时通信主要限于内部员工。企业应该针对灾难场景制定计划,可以随时与合作伙伴、客户、政府官员以及广大市民进行沟通。社交媒体网站应该保证建立这些外部联系是相当容易的。
最后,社交网站的讨论环境应提供民众动员和态势感知能力。Forrester认为,社交网站的价值就是要在危机沟通领域提供独一无二的优势。
不过社交网络用于灾难恢复也存在一个缺陷,那就是网络“天然地具有一种提高FUD——恐惧、不确定和怀疑——的能力,”Silverstone说。“所以我得忠告企业,必须要在灾难发生之前制定如何使用社交网络的长期计划,考虑多种不同的可能性,和其他任何沟通手段一样管理好社交网络上所有接入和数据共享。”