技术决定成败---灾备系统建设技术要素

容灾技术是灾备系统的核心,技术因素考虑的是否完善,对于灾备系统建设的成败可以说起到非常关键的作用。如果灾备方案提供商在企业灾备建议之初,能从企业切实的容灾系统技术和工程可行性出发,为企业找出最佳的灾备系统建设路线,相信可以帮助企业的灾备系统建设少走不少弯路。那么,企业在构建容灾系统时需要考虑的技术因素有哪些呢?

(1)防范的灾难范围

灾难的防御范围,常规上大家重点考虑一些硬灾难,包括服务器、存储等硬件设备损坏造成的宕机;地震、火灾、机房进水等造成的机房失效,也有空调损坏、多站供电断电等意外;甚至当瘟疫蔓延时机房无法进入等极端情况。这类灾难一般被称为“‘硬’性灾难”或“站点级灾难”,意指整个站点失效,整个站点所提供的服务均被中止。

然而,还有很多灾难类型,灾难发生后,虽然建筑、设备、人员都是无损的,但整个机房站点同样失效,整个站点所提供的服务同样被中止。这类灾难我们称为“‘软’性灾难”或“类站点级灾难”。它们带来的后果同样是灾难性的、甚至更加严重。这种灾难主要是由于一些恶意行为:外部黑客攻击、内部高技术犯罪;和一些失误行为:系统维护失误、误删除重要数据、打入冲突系统补丁。。。等引起的。

“‘硬’性灾难”或“站点级灾难”的发生是管理人员能够即刻发现的,造成的损失大多可以立刻评估、处理。而“‘软’性灾难”或“类站点级灾难”大部分无法被管理人员立时发现,造成的损失一般要远远大于前者。而且,恢复起来很麻烦,需要企业投入更多的资源、承担更多大的风险去解决。

(2)对企业当前业务的影响程度

目前很多服务性行业,如银行、医院等都要求其业务系统保证7X24小时在线运行,但在线系统的状况可能略有不同,灾备系统的建设首先不能修改现有生产系统的结构(如,灾备设备以旁路的方式接入用户生产系统),否则会可能产生对现有系统状态的破坏和增加不稳定因素,导致今后生产系统维护增加极大的难 度。其次,容灾系统的实施应采取最为简易和快捷的方式,工程上应具有可操作性、周期的可控性,实施周期要短,这样才能最大限度地减小对原有在线系统的影响,提高容灾系统建设的成功率。

(3)企业能容忍的恢复时间(RTO)

当计算机系统发生意外无法工作时,导致业务停顿所造成的损失程度,即企业对于系统发生故障时的最大容忍时间,业务称之为RTO。这也是设计容灾备份 方案的重要技术指标。对于容灾系统来说,它除了集群系统之外的其它容灾系统,在灾难发生后都需有一个恢复的过程,尤其远程容灾的宕机时间最长,那怎样来解 决企业用户对容灾系统所需的恢复时间呢?目前市场中主流的CDP持续数据保护技术在保证RTO方面,可以达到企业所需的分种级恢复的恢复时间要求,对于远 程容灾更是可在30分钟内恢复业务运行,而这种恢复时间也并没有为企业增加额外的灾备建设成本。

(4)企业能容忍的最大数据丢失量(RPO)

是否要求数据库可以恢复所有提交的交易并且要求实时同步数据,也就是数据的连续性和一致性,决定了容灾备份方案规模和复杂程度的重要依据。传统的容 灾技术大多采用的是基于磁盘阵列或应用主机来实现的,因此数据的同步都局限于数据盘的数据同步,同步镜像技术可以达到数据盘的数据同步,但异步镜像无法达 到数据盘的数据一致性,因此借住于快照技术达到同一时间点的数据盘的同步。但在技术中都无法确保实现运行业务系统数据的一致性。同是地,在恢复颗粒的精细 程度上也有一定局限,恢复到发生灾难前一刻的数据时间点或恢复到之前保留的某一时间点版本的数据,与快照技术及快照策略有非常大的关系,两个快照之间的时 间差是不可避免的,如果企业选择的快照技术可以把快照间隔缩到最短(如,主流的CDP技术可以达到微秒级),企业则可以对业务数据实现最大化保护。

(5)技术的维护难度

由于长期以来,容灾技术的复杂性和高成本性,使得大量的容灾系统建设都呈现出维护难度大、传输故障的防范能力低、灾备演习难度大的特征。因此,选择 的容灾技术应考虑到技术实现和管理的友好性和简易性,灾备中心管理人员的本地可自行维护能力是一个重要的因素,这是故障快速响应和处理的一个基础,这样才 能使得多极的维护体系更为有效率、处理故障的能力更为强大。

(6)是否适用于现有的业务系统,是否面向未来可能加入的其他业务系统

这是非常容易被忽视的一个因素。混合系统容灾、开放设备的选择常常使得用户的理想与技术现实产生鸿沟。如果能够在本次建立容灾系统时,采用面向未来的技术,这样就可以形成一次构建,长期受益的良好架构,而且今后的系统改造成本将会十分轻微,达到为全系统服务的长期目标。