(连载)网络存储导论第13章:容灾系统设计纵论

第十三章 容灾系统设计

    13.1 容灾方法的具体分析

    13.1.1 灾难备份需求的衡量指标

    对于大多数企业而言,提到灾难备份,最直接的反映就是增加预算,购买更多的主机,存储设备以及相应软件。虽然这是实施灾难备份项目的一个必要步骤,但是,从“灾备方案应是风险和成本相应平衡”的出发点来综合考虑,实施灾难备份项目的第一步应该从“分析评估以确定灾难灾难备份需求目标”开始。

    RTO (Recovery Time Objective)

    RTO,Recovery Time Objective,是指灾难发生后,从I/T 系统当机导致业务停顿之刻开始,到IT 系统恢复至可以支持各部门运作,业务恢复运营之时,此两点之间的时间段称为RTO。

    一般而言,RTO 时间越短,即意味要求在更短的时间内恢复至可使用状态。虽然从管理的角度而言,RTO 时间越短越好,但是,这同时也意味着更多成本的投入,即可能需要购买更快的存储设备或高可用性软件。

    对于不同行业的企业来说,其RTO 目标一般是不相同的。即使是在同一行业,各企业因业务发展规模的不同,其RTO 目标也会不尽相同。

    RTO 目标的确定可以用下图来说明:

    如上所说,RTO 目标越短,成本投入也越大。另一方面,各企业都有其在该发展阶段的单位时间赢利指数,该指数是通过业务冲击分析(BIA-Business Impact Analysis)咨询服务,以交谈、问答和咨询的方式得到确定的。在确定了企业的单位时间赢利指数后,就可以计算出业务停顿随时间而造成的损失大小。如上图,结合这两条曲线关系,存储工程师将可以找到对该企业而言比较适合的RTO 目标,即在该目标定义下,用于灾难备份的投入应不大与对应的业务损失。

    RPO (Recovery Point Objective)

    RPO,Recovery Point Objective,是指从系统和应用数据而言,要实现能够恢复至可以

    支持各部门业务运作,系统及生产数据应恢复到怎样的更新程度。这种更新程度可以是上一周的备份数据,也可以是上一次交易的实时数据。


图13-1 RTO 目标确定指标图


    与RTO 目标不同,RPO 目标的确定不是依赖于企业业务规模,而是决定于企业业务的性质和业务操作依赖于数据的程度。因此,RPO 目标对相同行业的企业而言会有些接近,而对于不同行业的企业来说仍可能会有较大差距。

    RPO 目标仍是以咨询的方式,通过与各业务部门主管的交流,了解业务流程和IT 应用的关系,以及通过回答问卷的方式,确定能够支持该企业核心业务的RPO 目标。

    13.1.2 重要系统灾难备份主要的实现方法

    在目前的技术条件下,重要系统灾难备份主要的实现方法主要有一下几种:


  1. 基于应用本身的容灾—-应用直接指向2 个同时运作的数据中心,在任意一个中心活动情况下继续工作
  2. 基于文件/数据库日志—-通过复制数据库日志和数据文件方式,从生产中心向海量存储系统进行数据容灾
  3. 基于复制磁盘容灾—-通过复制磁盘IO 的方式,从生产中心向海量存储系统进行数据容灾,根据复制设备的不同,又可以分为:
  4. 基于主机
  5. 基于磁盘阵列
  6. 基于智能SAN 虚拟存储设备

    下面对各种方式进行一个简单比较:

    表 13-1 容灾方式比较


    13.1.3 灾难备份方式比较的分析

    各种容灾方式下,只有基于应用本身的方式可以做到RTO 为0;其它方式一般需要进行网络切换、存储切换和数据库重启等工作,RTO 一般从几十分钟到数小时不等;一般都要求主机和数据库同步,虽然存在理论上的异构可能,但是在具体实施时会给开发/测试带来巨大的难度,并大大降低容灾系统的稳定程度,一般不会采用。

    基于应用本身的方式虽然可以做到RTO 为0,但是对应用要求极高,并且需要极其复杂的机制处理双中心的数据同步问题;目前浙江系统众多,应用复杂,如果采用这种方案,需要对所有应用进行更改,实施难度极大,顾不予推荐。基于基于文件/数据库日志的方式,只能以文件方式传输数据,数据丢失单位至少一个文件,无法做到RTO=0,在不允许丢失数据的关键应用上也不适合,顾不予推荐。基于复制磁盘容灾主要有同步和异步2种方式,异步方式无法做到RTO=0,在不允许丢失数据的关键应用上也不适合,顾不予推荐;同步方式的情况下,以复制主题不同进行分类。基于主机复制磁盘数据:磁盘阵列可以异构是最大的优点;但是,这种方式容灾时对主机性能有一定影响,针对不同的主机需要采用不同的实现方式,目前浙江系统众多,应用复杂,如果采用这种方案,需要对所有主机进行论证和实施,实施难度较大,顾不予推荐

    基于磁盘阵列复制磁盘数据:实施简单是最大的优点,不影响主机,只镜像数据,是目前较主流的一种容灾方案;但是,这种方式容灾时,需要磁盘阵列高度同构,不但要求磁盘阵列是一个厂商的,还必须是同一厂商同一系列的阵列,否则无法实现数据复制,所以,这种方案多用于已经进行存储整合的大型系统;目前浙江的现实情况是系统非常多,不同系统采用不同磁盘阵列,很多目前的系统还不支持磁盘阵列的远程镜像功能;如果实施这种方案,首先需要升级/替换很多磁盘阵列,然后为每一种阵列在海量存储系统配置相应的同构磁盘阵列,投资巨大,每一种不同的阵列采用不同的软件,维护不便,而且,中心的各个存储各自工作,没有一个统一存储池能够灵活调配资源,资源使用也狠浪费

    基于智能SAN 虚拟存储设备复制磁盘数据:这种方式拥有所有基于磁盘阵列复制磁盘数据的优点,而且通过这种方式可以解决许多基于磁盘阵列无法解决的问题:


  • 磁盘阵列可以完全异构,不同厂商不同系列的阵列可以混合使用,大大节约客户方案复杂程度和实施难度
  • 智能SAN 虚拟存储设备实现远程容灾不在乎客户现有的SAN 阵列是否支持远程数据容灾,大大保护客户投资
  • 智能SAN 虚拟存储设备可以将中心的多个存储设备(如果有多个的话)作为一个统一的存储池进行管理,存储效率大大提高
  • 智能SAN 虚拟存储设备针对不同的主机存储设备采用统一的软件实施远程容灾,管理维护大大简化

    所以,在目前情况下,基于智能SAN 虚拟存储设备进行磁盘复制的方式是最适合目前项目需要的,也是存储工程师主要推荐的方案。