云计算在RTO和RPO规划中的作用

到2012年,平均每小时的停机成本增加到了9.8万美元到13.8万美元之间。尽管不同的企业可能所遭受到的停机时间所带来的确切的影响和实际成本会有所不同,但最近的一系列的极端天气事件,已然引发了许多企业开始更迫切要求进行业务连续性规划(BCP)了。

应用程序的重要性与停机时间的成本

采用一种市场的方法,停机时间所带来的影响可以通过应用程序的重要性来理解:关键任务和关键业务应用程序。如果关键任务应用程序发生中断,不会产生企业哟营收,服务级别协议(SLA)被打破,而在客户方面的损失几乎是肯定的了。而关键业务应用程序发生故障则意味着企业员工生产力的下降,同时也动摇了客户的信心,并有可能造成企业营收的损失。企业掌握停机成本是了解灾难恢复的切入点。这同时也阐明了提供最佳的投资回报(ROI)的选项,以及灾难恢复和保持业务连续性预算的具体金额大致应该是多少。

然而,尽管有了多种的技术选择,但如果没有关于RTO政策的准确定义,即使是最好的IT企业也可能难以在发生灾难时区分哪些系统是最关键的。企业的各部门相关人员必须与IT部门联合起来协同工作,必须提前确定明确的时间目标,以便在线恢复能够快速进行。除了提供方向,设计RTO政策还将会给IT部门确定那些RTO目标的障碍的机会。

同样,恢复点目标(RPO)有助于确定多少信息(包括从几分钟前的信息到传统遗留的信息)必须被恢复。随着企业所收集的数据量不断变大,而且对于企业来说也更具价值,RPO窗口将只在两个方向上继续扩大,对于RPO政策,更多的历史数据将被认为是重要的,因而,初始RPO点将越来越接近灾难事件。

云基础设施也可以提供调整恢复服务水平的能力(RSL)。RSL是一个百分比的测量(0-100%)方式,能够测量出在灾难发生时,生产系统所需要的计算能力百分比。例如,如果一个大型呼叫中心所收集的呼叫统计信息被洪水淹没了,只需要有一小部分的生产能力。然而,如果是一家大型金融机构经历相同的灾难,则充分的生产能力将要求重新定位最终用户到一个单独的地理位置,并在维修期间,尽量减少对最终用户的影响。从经济学的角度来看,这两个选项是完全不同的。

很多时候,当在进行业务连续性规划目标的定义时,数据中心服务提供商往往听到客户要求即时恢复和零数据丢失。虽然这是不现实的,但从技术的角度来看,这是一个可以实现的目标,RTO和RPO都将显著影响基础设施、复制和备份策略,特别是频率。然而,业务目标必须权衡成本,这就像一条抛物线型的增长,要求RTO和RPO是下降的。

数据中心和数据中心服务提供商可能会发现他们的角色转变越来越多。在Forrester最近的一份研究报告中,高级分析师Rachel Dines写道:“超过三分之二的IT专业人士都是积极的RAAS采用者,或至少对于实施基于云的恢复即服务(recovery-as-a-service,RAAS)感兴趣。”

企业必须通过问自己当前是否有没有虚拟化的系统;重新审视恢复服务水平是否有益的;或他们是否可以使用符合成本效益的公共云和混合云来承担工作负载,以便能够积极主动地提高他们的RTO和RPO政策。