IBM公司 S/390 业务恢复存储解决方案全面透析

当企业越来越依赖于数据去进行处理它的商业行为以及由此来保证它在业界的竞争力的时候,数据处理的高可靠性和高可用性就尤为关键。一个计算机系统的长期停止将直接导致明显的财务流失,更为重要的是,您将失去客户的信任以及一系列的企业赖以生存发展的市场,在一些情况下,数据的丢失甚至将会导致整个企业的失败。

据一项美国的研究报告显示,在灾害之后,如果无法在14天内恢复信息作业,有75%的公司业务会完全停顿,43%的公司再也无法重新开业,因而有20%的企业在两年之内被迫宣告破产。美国Minnesota大学的研究表明,遭遇灾难的同时又没有灾难恢复计划的企业,超过60%以上企业在的两到三年后将退出市场,随着企业对数据处理依赖程度的递增,此比例还有上升的趋势。因此,在限定的时间内成功的灾难恢复将应该是一个企业战略计划中的一个关键组成部分。

IBM S/390业务恢复存储解决方案

由于应用的可用性和灾难恢复能力越来越被看重,越来越多的公司开始采用双站点策略。IBM被称为地理分散并行系统(Geographically Dispersed Parallel Sysplex ,GDPS)的S/390多站点应用可用性解决方案,将S/390并行Sysplex技术与远程拷贝技术集成在一起,能够提高应用的可用性和灾难恢复能力。

IBM的存储系统部在1994年推出了两种远程拷贝功能,一种被称为PPRC(Peer-to-Peer Remote Copy,对等远程拷贝),一种被称为XRC(Extended Remote Copy,扩展远程拷贝),并在1995年投入应用。1996年,所有IBM 3990存储控制家族产品的先前型号都被具有远程拷贝功能的型号6替代。

对等远程拷贝(PPRC)功能现在被所有主要的S/390存储供货商视为S/390 Sysplex灾难恢复领域的前途所在。PPRC和增强OS/390以及地理分散并行Sysplex (GDPS)一道,成为业界高可用性解决方案的领导者。最近的Gartner分析表明,并行Sysplex解决方案每年平均停机时间少于10分钟。

GDPS是一种多站点应用可用性解决方案,具有管理远程拷贝配置和存储子系统、自动执行并行Sysplex操作任务、从单一控制点执行故障恢复等功能,从而达到了提高应用可用性的目的。通过GDPS和PPRC,IBM使灾难发生后进行恢复的时间缩减到以分钟计算。

除非特殊说明,下文叙述的所有解决方案都假设主站点和恢复站点之间通过企业系统连接(ESCON)一类的宽带连接互连。

备份和恢复

在所有的IT资源中,数据最重要,但也最不稳定最复杂。其它资源,如处理能力、供货商提供的软件、DASD、存储设备、建筑物等,都是最终可替换的,但大部分数据却是不可替换的。而数据对商业活动来说是最重要的。在这里我们将讨论适用于灾难恢复的不同IBM产品,它们能够进行不同类型的数据管理,设置不同的数据备份选项。本部分主要叙述用于灾难恢复的功能,但并没有覆盖这些产品所有的可用功能。

远程拷贝

当某一应用站点停机时,IBM的远程拷贝功能能够进行快速有效的灾难恢复。该功能能够在远程站点实时维护数据的镜像拷贝,并确保以与主站点完全相同的次序在远程站点进行数据写入更新的远程复制。这一解决方案在远程拷贝控制机制下自动对DASD卷上的数据进行跟踪。这种跟踪的发生独立于使用这些数据的应用。因此,来自不同应用的独立远程拷贝功能是不需要的。

应用的性能保护、数据当前值选项和数据独立都是IBM远程拷贝设计中的组成部分。远程拷贝方法有以下不同的两种:

对等远程拷贝(PPRC); 

扩展远程拷贝(XRC)。

PPRC和XRC都试图通过维护DSAD卷间的实时拷贝来达到数据保护的目的。远程拷贝超出了狭隘意义上的双重拷贝,因为它允许副卷存储在远地点上。双重拷贝的主要用途是保护数据不受设备失效的损害,而远程拷贝的目的要更加广泛。

对等远程拷贝(PPRC)

PPRC提供的灾难恢复能够最大限度地保留数据当前值。如果您属于以下的情况,PPRC将能够很好地适合您的需要:

避免数据丢失是您最优先的考虑;

您的运行站点和恢复站点之间的距离不超过103公里;

您的工作负载和要求能够承受同步拷贝带来的性能损失。

PPRC提供有助于保留数据当前值和完整性的两类选择。一个选择是将卷标记为"关键",保证在副卷不能更新时,原有的更新也将无效,不论卷是处于同步状态还是异步状态,甚至是在灾难出现时也如此。这一功能通过APAR提供,在写入时被设置为可用。

第二个选择是使用最近被改进的系统错误恢复程序(Error Recovery Procedure,ERP)。当发生问题时,ERP在向主机返回完成状态之前记录错误信息,在远程站点上将配置这些记录的一个拷贝,从而即使在灾难过程中也能够连续提供哪些卷处于同步状态和哪些卷没有处于同步状态这样的信息,这一功能通过APAR提供。

PPRC对于VSE用户来说也是一种理想的灾难恢复解决方案选择。通过使用ICKDSF命令接口可以很容易地建立PPRC路径和PPRC对。VSE环境下的PPRC功能与OS/390环境下类似,只是VSE用户使用ICKDSF命令接口而OS/390用户使用TSO/E命令接口。

OS/390环境下运行的PPRC还能够与一种被称为对等动态地址交换(Peer-to-peer Dynamic Address Switching ,P/DAS)的新功能共同工作。

在以前的P/DAS实现方法中,SWAP命令的第一地址是在一个PPRC主卷上,第二地址在相应的副卷上。在ESS系统中将不再要求这两个卷构成一个活动PPRC对,您可以交换ESS系统中的任意卷对,前提是必须能够确保所交换的卷是一致的。

通过IBM ESS系统,PPRC可以建立在LUN基础之上。与其它PPRC实现方法一样,PPRC只能建立在相同类型的存储控制单元之间。与其它型号IBM DASD控制器上实现的PPRC相比,通过ESCON连接的两个ESS控制单元之间的通信性能可以有更大的提高。ESCON协议是经过改进的,信号交换较少,两个ESS之间可以传输更大的ESCON帧。这些提高使两个ESS之间的距离在使用多模到单模的ESCON转换器和放大器的情况下可以扩展到103公里。

扩展远程拷贝(XRC)

扩展远程拷贝(XRC)是一种异步拷贝功能,在正常运行期间对大多数应用性能的影响最小。XRC在远程恢复站点为您的运行数据创建一个副本拷贝。

如果您属于以下的情况,XRC对您将是比较适合的:

应用在正常操作过程中的性能是您最优先考虑的对象;

可以接受副站点数据当前值更新的较小延迟。

如果您的运行站点和恢复站点之间的距离超过103公里或出现"线路"问题,您可以使用CNT CopyXpress或其它信道扩展器使您的XRC解决方案通过电信线路得到扩展。由于XRC需要OS/390的系统数据移动器(System Data Mover, SDM),因此,它只能在OS/390环境下工作。

为确保数据完整性,Data Mover的设计使其能够以主站点上相同的顺序在远程站点上进行数据的更新。对于远程拷贝数据会在某些存储控制器上展开的情况,这一功能将是特别重要的。

以上两种解决方案在远程拷贝机制下都能够对DASD卷上的数据进行自动跟踪。跟踪的进行与使用数据的应用相互独立。因此,来自不同应用的分散的远程拷贝功能是不需要的。一旦对某一卷建立了远程拷贝,远程拷贝的运行将是透明的。当数据写入主DSAD时,无须应用用户的任何干预,这些数据就会被拷贝到远程DSAD中。

PPRC和XRC不同之处在于以下几个方面:对DSAD I/O性能的影响、灾难发生时数据当前值的最新程度、系统资源的占用、操作距离和运行控制。

ESS支持某些硬件辅助的拷贝功能的目的有两个:为能够提供数据实时拷贝的灾难恢复解决方案和拷贝功能提供镜像操作功能。StorWatch ESS专家拷贝服务Web浏览器接口提供了一种任何环境下建立和管理PPRC的方法。它为使用控制面板建立图形视图任务的用户进行操作管理提供了一种有组织的方法。

并发拷贝功能(Concurrent Copy)

并发拷贝是改进后的DFSMS/MVS和IBM S1390 型号3以及型号6所提供的一种功能。RAMAC虚拟数组(RAMAC Virtual Array ,RVA)和企业存储服务器(Enterprise Storage Server ,ESS)成为IBM S1390系列当然的后续产品。

并发拷贝允许对数据进行"时间点"性质的拷贝,而这些数据可同时被更新。只有提出拷贝请求时数据库的更新才必须被停止(停止的时间长度以秒计)。一旦请求被接受,更新可以被恢复,并发拷贝将创建一个拷贝请求发出时的数据拷贝。这一功能大大减少了数据库进行备份拷贝所引致的不可使用时间。在很多情况下,节约的时间要以小时计,而且并发拷贝大大增加了OS/390环境下在线操作和批处理的时序安排灵活性。

在并发拷贝出现之前,物理和逻辑信息转储之间常常需要进行交替换位。在转储过程中,数据对其他应用来说是不可用的。物理转储进行的速度较快,但必须被恢复到一个相似的设备上。因为每天晚上都要进行转储,而恢复并不经常进行,所以总的来说物理转储可以减少停机时间。

并发拷贝出现后,规则就被改变了。对于并发拷贝转储来说,只有并发拷贝转储请求被接受时,数据才是不可用的。在实际转储过程中,数据都是可用的。在使用并发拷贝的情况下,逻辑转储具有与物理转储一样的数据可用性;不使用并发拷贝时,逻辑转储在数据可用性方面比物理转储要好。

DFSMSdss也提供了并发拷贝功能。这一功能由DFSMSdss控制语句中嵌入的CONCURRENT参数调用。DFSMSdss可以作为一个正常的任务步骤被调用,也可以被使用DFSMSdss API的程序调用。大多数并发拷贝工作并不由DFSMSdss执行,而是由作为DFSMS/MVS组件的系统数据移动器 (SDM)执行。当收到一个通过DFSMSdss产生的拷贝请求时,SDM对环境进行初始化,为拷贝作好准备,并通知IBM DASD控制器将被拷贝的数据的范围。

环境初始化完成后,拷贝开始,数据更新重新恢复。如果正在被拷贝的数据需要被更新,或被更新的数据还没有被拷贝,这些数据就被拷贝到IBM DASD控制器高速缓存中的sidefile中,更新工作将继续进行直至完成。为使对高速缓存的占用最小,数据将由高速缓存的sidefile转移到MVS的数据空间sidefile中。在拷贝数据时,DFSMSdss在(存入)磁盘前不断检索sidefile,因此,备份中并不包含拷贝请求被接受以后所发生的任何数据更新。

ESS中并发拷贝的工作方式与其在IBM S1390-6中的工作方式一样。并发拷贝由DFDSS中包含的CONCURRENT关键词发起,或由将DFSMSdss作为拷贝程序并对其进行内部调用的应用发起。

快速拷贝(Flash Copy)

ESS提供的快速拷贝功能使计算中心能够在几秒钟内为一个逻辑卷或数据集创建一个拷贝。由于创建数据的快速拷贝仅需要几秒钟的时间,所以您的应用只须中断很短的时间。在此之后,您的应用将继续运行。快速拷贝所拥有的独特功能使计算中心能够随意安排运行数据集的备份,从而在灾难发生时能够提供数据的快速恢复。

快速拷贝只能用于磁盘卷之间,它要求目标卷与源卷处于同一个逻辑子系统中。当拷贝操作建立时,目标卷与源卷之间将建立一种关联。这一关联建立后,卷拷贝将能够被访问,一个后台作业将复制所有由源卷拷贝到目标卷的磁道。如果ESS StorWatch 专家拷贝服务建立了一个快速拷贝过程,您可以使用NOCOPY选项来禁止这一后台拷贝任务。如果您仅在短时期内需要拷贝功能,那么以上功能就用得上了。

快速拷贝可以通过OS/390拷贝程序DFSMSdss来启动,对于ESS中设置了卷或LUN的系统,则可以通过StorWatch ESS 专家拷贝服务的Web接口来启动。快速拷贝功能还可以与其它硬件辅助的功能如PPRC相结合,使您可以在几秒钟内创建PPRC副卷的一个快速拷贝。

业务数据恢复

由于业务相关数据主要部分的管理是由一个或多个数据库管理系统(DBMS)来完成,本部分将说明主站的恢复过程,并且将着重说明灾难恢复时的不同。

传统意义上,数据库恢复的基础是利用一个安全的时间点备份(映像拷贝)来进行数据库恢复,并利用DBMS历史记录中的一个安全拷贝可以随意执行一个向前恢复。对DBMS数据库来说,很有可能执行的是"实时向前滚动"和"实时远程更新"解决方案。

在灾难发生时计算中心如果使用历史记录数据进行向前恢复,那么历史记录数据与必要的恢复控制信息一起必须被安全地离站存储。如果DBMS运用双历史记录,那么副历史记录数据可以分配到远程附属的DASD上。这可能是一个花费稍高的解决方案,但它能够消除历史记录数据丢失带来的风险。否则,您需要通过磁盘镜像来使用远程实时历史记录,例如IBM的远程拷贝功能。

企业系统连接(ESCON)

ESCON极大地提高了处理器和I/O设备之间以及多处理器之间的内部连接能力。利用ESCON,数据可以以18.6MB/秒的速率传输。传输的最大距离取决于光纤电缆的类型、内部连接的组成部分以及所使用的控制单元。这些距离规范大多数都不是硬性限制。超出这些限制仅仅会导致性能上的降低。然而,若超出一定的值,系统将会停止工作。

ESCON XDF的使用可以使得信道连接的距离足够满足许多灾难恢复解决方案的要求。现在间隔60km以外的主站和二级站点之间可以利用大带宽CTC连接,直接进行处理器与处理器之间的备份数据传输。DASD和盒式磁盘设备都可安置在距离主站点43km的地方,并允许离站对关键数据直接进行简单有效的拷贝。这意味着关键数据将会快速安全地完成备份过程。这就去除了传统的手工传送备份数据到一个安全站点的操作。