谁说容灾难普及之Ⅱ:为何容灾难普及

说起容灾,无论是IT管理员,还是行业专家,各有各的说法,纷繁复杂的技术和理念,争奇斗妍的方案和产品,让人犹如雾里看花般,难辨优劣。但是,对于需要容灾的用户而言,首先要搞清楚的,就是到底容灾是什么?容灾解决什么问题,具有什么价值,如何去选择解决方案?而这,也是我们这个系列文章的出发点,看清容灾,看清方案、成本和价值,让选择更加从容,方案更加专业。

一、 中国用户容灾现状

在“谁说容灾难普及之Ⅰ 容灾的前世今生”篇章里,我们探讨了什么是容灾,容灾的发展史。通过对容灾发展史的纵观,我们可以看到,整个容灾技术是根据不同的需求,由各种不同的技术结合发展而来的,最后统一归纳成一体化的形态,为什么呢?因为容灾要解决两个问题,第一个问题是数据不丢失,第二个是应用不间断。那么数据不丢失,应用不间断,是我们企业的需求吗?是IT环境需要的吗?所以,在处处说要普及容灾的时候,我们需要反思一个问题,那就是容灾究竟是否有普及的必要?

我们一起来看看中国用户的容灾现状。经过市场调查表明,在中国有70%的数据容灾用户需求量,但却面临着最基本的备份方案的困扰,比如备份时间过长,数据恢复不成功等;在这里面,有80%的应用容灾用户需求量,但市场上提供的产品绝大部分都是有备份没应用容灾,或者有应用容灾而没备份,真正一体化应用能够同时解决备份和应用容灾需求的产品可遇而不可求;一直以来,传统容灾都是属于高高在上的奢侈品,能够用得起的用户很少,在这么庞大的需求量里有90%的用户因为成本不可控,而用不起传统容灾。

在这样一个灾难无处不在的IT环境里,用户面临着不知道如何选择容灾的困境,要么就是只有备份,没有选择容灾,要么就是想用容灾,但是买不起,这就是中国用户的容灾现状。

比如我们的 IT 管理员就经常面临这样的情况,几年以前购买的服务器,已经购买了备份软件,因为系统更新换代,需要采购新的设备,发现原有的技术方案已经不能满足实际需求,。又或者是,几年以前,当时的业务系统数据量小、负载低。对 IT 系统没有什么太强的依赖性,备份方面用脚本备份就可以满足需求了,而现在几套系统并用,且全部实现无纸化,业务系统绝对不能断。但是往往容灾系统有不能有效地跟上整个业务系统的建设步伐。

二、 为什么容灾难普及

想用容灾,却难以普及,为什么?

考虑到了上面的情况,IT管理员决心要打造一套无懈可击的容灾系统,但是问题又来了,市面上容灾方案那么多,技术点那么多,而且机房原来的投资又不想浪费,那怎么办?

我们先来看一下容灾系统建设需要考虑的必备三要素:价值、成本和方案。首先,容灾能创造什么样的价值,IT系统建设有它自有不可违背的规律,企业组织架构建设有它必须遵循的规则,容灾能够为IT系统建设和组织架构建设带来哪些价值,是需要考虑的最本质的要素之一;其次,容灾需要投入多少成本,初始成本是多少,机会成本是多少,维护成本又是多少;最后,我们要选择什么样的方案才是真正的容灾方案,有效果的容灾系统应该是在性能、管理、技术指标RPO/RTO/DRO之间都能取得最佳平衡点。

三、 能创造什么价值

1> IT 建设什么阶段需要容灾

容灾能创造什么价值?我们首先来看看,在IT建设什么阶段需要容灾,当IT建设系统能创造价值的时候,容灾的价值就会相应的凸显出来。

万事万物都有其基本发展规律,IT信息化建设也不例外,从最初的基础建设阶段,包括PC、服务器、网络等部署,到随后的应用建设阶段,包括OA、网站、CRM、ERP、专用的业务系统等应用,已经成功的跨入了运维有效性建设阶段,包括安全类、加速类、增强类系统、数据保护类等应用,在这个阶段,需要大量的安全防护类产品和解决方案来保证复杂应用系统的运维有效性,同时也因为各类不可抗拒力意外事件的频发,侧面印证了IT运维有效性建设的多维度必要性,对于这个阶段的用户来说,容灾系统的建设已经成为了一个必选项,而不是可选项。

从这里我们可以看出为什么容灾难普及的原因之一,在信息落后的区域,对于没有进入IT运维有效性建设阶段的用户来说,就没有考虑容灾系统建设对业务价值的必要,但是在信息比较发达的区域,这个已经不是主要问题了,他们更多的需要考虑容灾系统建设对于公司组织机构的价值在哪里。

2> 容灾对组织机构有何帮助

容灾系统建设对组织机构的价值体现在哪里呢?

在信息化比较发达的区域,IT建设项目审批时会遇到什么问题呢?答案就是申请预算。对于信息主管来说,要想部署容灾方案,就得说服管理决策团队、财务部门,我们为什么要上容灾?我们上了容灾,对整个组织机构有什么帮助?在这个说服过程中,需要有数据支撑,有管理支撑。那首先我们要知道,部署了容灾系统后,在业务上对企业而言有什么帮助,很明显,正如我们第一篇提到的容灾的目标:保证数据不丢失和应用不间断。那么对于企业的管理而言,我们有什么帮助呢?

如果我们能够将这个阐述清楚,那么决策者是立即能够考虑是否采纳这个容灾方案。因为他可以帮助企业去建立管理职责,可以防范风险和事故等。那么,该如何理解管理职责呢?假设我们没有上容灾系统,发生灾难的时候,也许这个事情没有部门来承担,一旦建立了这个容灾系统之后,专门的 IT 部门来承担了。那又该如何承担,怎么考核,都会因为这个容灾系统的建立发生很大的变化。

防范风险,但是这个风险能防范吗?对我们企业来说就需要思考一点 —— 如何保证这个事情是可以防范的,我们的容灾系统又是如何来支撑的。如果我们现有的容灾只是提供一个RTO、RPO值的保证,而没有提供事先控制、事中跟踪和事后分析的机制,这样就没办法跟企业的管理目标结合起来,类似我们的职能体系,如何把职能体系纳入到考核体系里面来,如何把考核数据从考核系统中拿出来对职能体系进行评估,这也是我们容灾系统需要改善的地方,到现在还没有这样的容灾方案是可以证明与组织机构的管理目标有结合价值的。

所以,真正的容灾方案不仅仅是需要服务于IT系统的建设,还需要服务于整个企业的管理,这也正是它对组织管理的价值所在,而现在能做到兼而顾之的容灾方案寥寥无几,这也是容灾为何难普及的原因之一。?

四、 要花多少成本

1> 什么是传统4S方案

对于容灾方案,从最开始以来,一直都是以4S的方式来实现,即首先购买服务器(Server),接下来需要安装好操作系统(OS)和备份容灾软件(Backup Software),最后,如果还有其他的大数据量的存储需求,还需要另外购买存储硬件(Storage)来满足数据存储需求,这样一种Server + OS + Software + Storage的传统4S方案无论从初始成本的投入来看还是后期的维护成本甚至机会成本来说,都是非常巨大的投入,对于广大用户来说,实在是一件门槛太高难以企及的事情。

2> 花什么样的成本上容灾

我们先来看看传统4S方案初始成本的投入情况,每个环节和流程都需要单独的购买产品组合成一个整体的方案来解决问题。比如传统的双机高可用方案,是至少需要2个厂商的产品才能保证应用不间断,一家服务器厂商再加一家双机软件厂商;如果还需要保证数据不丢失,就得另外再部署VTL方案需要的备份软件加虚拟带库,这样至少需要3个厂商;增加磁盘镜像方案得另外再购买其他厂商的产品,异地容灾还得买其他厂商的产品,最终造成容灾系统的建设需要一笔笔不断投入的初始成本。

对于维护成本来说,因为一个个环节流程的单独产品和系统配置,整体的维护成本投入也很高, 试想一下,一套容灾系统的构建需要至少向2个厂商购买,在部署后的维护过程中,如果万一哪个环节出了问题,需要向几个厂商同时咨询和交流,这样无论是维护还是管理都需要多重成本的投入,对于用户来说,是一件冗繁而且投入大的工作。

而在容灾方案系统建设的另外一个角度来看,机会成本也是衡量的重要指标之一。所谓机会成本就是我们避免了某一个事故发生,产生了多少成本。比如,传统的双机高可用方案只能单纯的保障应用不间断,不能保证数据不丢失,那么如果因为意外事件丢失的数据所带来的损失就是传统双机高可用方案的机会成本损失。又比如VTL备份方案,虽然有了备份操作,但是因为技术漏洞,备份窗口间的数据的丢失机率很大。再或者通过磁盘镜像来实现对数据的保护,本地的数据无忧了,但是政府又出了需要防自然灾害的政策要求,面对这样的不可抗力随时可能带来的损失,我们对于这种意外事件可以采取的措施是否又能带来机会成本的收获。

从这里我们可以看出,对于传统4S方案来说,容灾系统建设成本投入的不可控风险是非常大的,对于到底需要花什么样的成本上容灾没有一个可系统规划的流程和可系统衡量的参考。?

五、 选择什么方案

1> 明确什么样的容灾需求

在前面我们梳理了下容灾方案建设的两个关键要素:价值和成本,那么面临各种类型的容灾方案,我们到底该选哪个好呢,在这里,我们先来看一下容灾方案建设首先有哪些具体的需求类别。

针对生产系统的应用系统和存储系统部分,需要保证它们的高可用、高性能和高可靠,比较有效的办法就是通过集群和RAID技术来保证。但是在这样一个基础之上,针对现有的部署情况,若需要针对关键服务器的数据和应用系统提供保障,则可以通过复制和备份技术来保证应用系统的可用度和数据的安全性。倘若还需要针对关键应用服务器实现应用不间断的实时保护效果,则需要再针对它进行异地的容灾系统建设,保证应用不间断。

面对这些五花八门的需求,到底我们要怎样做什么样的程度才能保证数据和应用的安全呢?这是我们在进行容灾方案选择时需要首要考虑的关键点之一。

2> 选择什么样的技术指标

在明确了容灾方案的具体需求后,我们再来看看容灾方案的建设又有哪些关键技术指标是需要权衡的。

在前面的篇章里我们已经了解到,针对非关键系统和关键系统,共有两个指标,非关键系统需要保障的是数据不丢失,关键系统需要保障的是数据不丢失+应用不间断,那么对应到容灾方案就是,对于非关键系统数据容灾方案就可以满足需求,对于关键系统则需要应用容灾方案来满足需求。数据容灾方案只需要评估两个技术指标即可,也即容灾方案一直以来素有的指标:RPO和RTO,因为这两个指标值能够最直观和客观的反应出备份窗口和恢复数据量的大小,而对于应用容灾方案来说,仅靠这两个指标是不能精确定位出容灾服务器的性能需求的,需要DRO,即容灾性能指标,容灾备用系统与生产系统的性能比例,来评估容灾服务器的配置情况。因此,从数据容灾到应用容灾,需要完整的满足这三个技术指标才是真正意义上的满足。

而除开这三个指标,对于容灾系统的建设来说,还有非常关键的一点就是整个规范流程的建立和落实,从最开始用户环境的分析评估到容灾目标设计,再到项目实施验证和维护管理,每个环节必不可少,而且均需要有非常缜密的技术实施细节保证,从这里我们也可以看出,容灾系统的建设不是一蹴而就和轻而易举的事情,从事前到事中到事后,均有配套的严密的流程控制来支撑容灾目标的实现。

那么,面对这么多的技术指标,我们期盼有一套容灾系统针对不同应用满足不同的技术指标,这样才能让传统复杂的容灾方案能够得到最广泛的普及。

3> 什么样的管理和性能才好

在“谁说容灾难普及之Ⅰ”的篇章里,我们讨论到,容灾系统多少年来一直不变的追求是管理和性能,那么到底什么样的管理和性能才好,我们一起来看一看。

对于管理来说,首先它需要满足的基本刚性需求,即能同时管理数据容灾和应用容灾,还可在本地容灾和异地容灾间自然延伸。其次,容灾管理还有它需要满足的高级需求,即能否管理不同技术指标的方案,能否管理不同应用的系统环境,能否对方案进行事先控制,能否对方案进行事中跟踪,能否对方案进行事后分析。对于性能来说,能否对系统主机的性能影响更小,能否以更短的时间完成恢复,能否以更短的时间完成切换,能否使用更少的存储空间 ,都是需要考虑到的性能要素。

但是纵观市面上的如此多的产品和解决方案,似乎还没有遇到满足这些管理和性能需求的集成方案。那么到底是IT建设没有到相应阶段,还是管理者没有看到其价值呢?都不全对,答案是没有合适的钱买到合适的方案,一步到位实现数据不丢失和应用不间断的需求。

六、 传统方案为何难以普及

我们再来回头看看针对这么多需求,为什么到现在为止,传统容灾方案还是没有得到广泛认可和普及。

一般来说,企业在最初只有数据定时备份需求,所选择的方案是普通备份软件加普通存储设备, 应用系统故障后在几小时间内恢复出数据即可,几小时的数据丢失不会有任何影响,但随着企业飞速发展,需要保护的数据量越来越大,备份时间越来越长,数据丢失容忍度从几个小时降低到1 个小时,这时原有的数据备份方案无法支撑变化,当IT部门提出升级原有方案时发现遇到问题了,原有方案备份软件功能受到限制,无法提供更高级功能,如果方案升级必须采购新的备份软件产品,增加企业经济成本,以及管理员的学习成本,可以说整体投入是入不敷出。

面对现在高速膨胀的文件和邮件数据量,日益复杂的应用系统,传统容灾方案均是通过拥有各种技术的不同产品来实现各个层次的保护,比如针对数据不丢失会有备份产品、快照产品,针对应用不间断会有CDP产品、双机产品,针对海量数据会有存储产品,各种不同特性解决不同问题的产品进行方案组合,那么这样不断组合后方案就会面临这么几个难点:

首先,它是不能覆盖需求层次的,因为总会面临着另外一种需求的难以满足的困境,因而需要不断的添加新的需求应用;其次,技术目标难以取舍,因为从最开始的需求满足就是零散脱节的,所以在技术目标环节,也是处于鱼与熊掌难以兼得的现状;接下来,无法更好的管理,因为组合方案本身的局限性,所以必然面临着同一套系统中不同产品的管理问题,又因为不同产品有其自有的特性,所以各种单独的问题或者因组合而产生的问题都会让整体方案的管理面临困境;最后,缺少性能支撑,虽然从磁带到磁盘,再从磁盘到一体化,每次飞跃都带来了阶段性的性能跨越,却并没有真正将每次的跨越统一集成起来产品和方案,所以导致传统容灾方案一直以来缺少核心的性能支撑,不能满足日益增长的性能需求。

七、 容灾,与其仰望,不如并肩?

万变不离其宗,通过以上的分析,传统容灾为何难以普及的原因已经非常清晰,我们可以看到,因为传统容灾方案从价值到成本到方案的各种局限性,导致其让人一直觉得高高在上,那么是不是能够有一体化的产品和解决方案能够打破这种仰望的局面和现状,让容灾能够全面普及,让用不起容灾的人能够用得起容灾,在用容灾的人能够更好的用容灾,请继续关注谁说容灾难普及系列之Ⅲ:一体化容灾全面普及。