赛门铁克数字图书馆高可用性解决方案

    【存储需求分析】

    随着数字图书馆建设的深入,IT系统已经成为图书馆运作的核心。目前传统的核心图书管理流程已经被全部自动化。随着需求的增加,很多图书馆又建设了许多新的应用系统为读者提供更全面的服务,包括门户系统、网上借阅预定、馆际资料互借、音像资料系统、TRS检索、期刊管理等,这些应用基本上都独立运行。另外,图书馆在逐步实现图书电子化,大量的影印数据占用着越来越多的存储空间。

    虽然在图书馆自动化建设中大多数院校已考虑过系统的可靠性、数据保护、应用高可用,但是面对今天人们越来越高的要求,这个系统仍然面临许多挑战。

    1.图书馆综合业务系统

    这个系统通常由一台中心数据库服务器和多台应用服务器组成,承担着图书馆的日常运行功能,它一般运行数据库,保存着完整的书目信息、书籍状态、借阅情况、读者信息等。同时数据库还对新的扩展业务系统提供支持。一旦发生数据丢失,将造成严重后果—图书馆停止运转、甚至经济损失—很多借出的书不能追回。因此至少需要实施最基本的数据保护。目前许多图书馆没有进行数据备份,或者只简单地手工备份,或采用图书管理软件自带的备份功能,无法保证所有数据、任何情况下的可恢复性。它面临以下挑战:


  • 图书馆各种应用系统备份与恢复管理各自为政,互不关联,增加维护人员负担,恢复周期长。
  • 不能快速恢复操作系统、软件代码及环境配置,一般需要重新安装。即使使用一些恢复工具,也与数据恢复脱节,效率低,复杂。
  • 不能保证所有数据在任何灾难后的恢复。
  • 没有考虑数据增长。例如不能利用SAN的优势作LanFree备份。
  • 存储设备不能共享,成本高。

    因此需要建立一个成熟的、可靠的、功能完善的、可扩展的数据备份与恢复系统。对于要求更高的学院,比如不能承受任何故障(硬件故障、软件故障、停电、火灾等)造成这个核心系统的停机,那么还需要建设这个系统的容灾系统,以保证当主系统由于灾难而停止运行时,容灾系统接管它的工作,继续提供服务。

    2. 其他扩展业务系统

    很多图书馆还扩展了多种新业务系统??如门户系统、网上借阅预定、馆际资料互借、音像资料系统、TRS检索、数据库综合服务等。这些系统也保存着重要的读者信息和资料信息,需要实施统一的数据保护,以便发生问题后及时、正确地恢复运行。要想为读者提供高质量的服务,这些扩展系统的不中断性不得不考虑。

    总之,高校图书馆自动管理系统根据需求的高低、投资的多少,依次需要构建基本的数据保护、较高层次的高可用保护、及最全面的容灾保护。

    【解决方案】

    1. 集中的数据备份与恢复

    需要建立一个集中统一的、高质量的、可靠的、适用的数据备份与恢复系统,以满足图书管理系统最基本的数据可用性要求。同时降低管理成本,提高投资回报。

    Symantec提供先进的数据备份与恢复解决方案,满足图书管理自动化环境的数据保护要求,其在图书馆管理环境中的部署架构如下图:


    逻辑上,NetBackup由备份管理服务器、备份介质服务器和备份客户端组成。管理服务器管理整个系统的备份策略、备份记录,提供GUI给管理员使用;备份介质服务器直接存取备份存储设备(带库或磁盘),并负责将需要备份的数据传送到合适的磁带或磁盘上,还负责恢复时将磁带或磁盘中的数据回送到需要恢复的客户端上;备份客户端安装在每个需要作数据备份的应用服务器上,如图中的各个业务机器。

     三个功能模块可以部署在一台机器上,也可以安装到不同的机器上。这里备份管理服务器和备份介质服务器由一台服务器负责,统称为备份服务器。

    备份管理员通过GUI制定每个应用系统的数据备份计划(也叫备份策略),并将它们保存在集中管理服务器上。所谓备份策略就是指定每个需要备份的客户机上那些数据在什么时候备份、如何备份。例如综合业务系统的数据最重要,设置成每天晚上8:00开始做备份;其他系统每两天做一次备份等。

    备份策略设置好之后,备份服务器就会按照策略指定的时间去唤醒应用服务器上的备份客户端,于是备份客户端将指定文件或数据库的数据从磁盘上取出,通过网络传送给备份服务器,由备份服务器保存到备份设备上。如果备份服务器有需要备份的数据,它直接将其保存到备份设备上,不需要经过网络,备份性能更高。

    备份设备既可以是磁带库也可以是磁盘。备份设备总是由备份服务器存取。允许多台备份服务器通过SAN共享一台备份设备。由于备份服务器自身的备份速度快,当多台应用服务器(如图书馆综合业务系统、期刊管理)需要高性能备份时,可以将它们均部署成备份服务器。

    备份设备的容量跟图书馆管理系统整个环境需要备份的数据量有关,还跟备份策略有关。例如,综合业务系统的数量是20G,备份策略是每周全备份,每天增量备份,每天的数据变化量是2G,需要保存4个全备份版本,则需要的存储容量为20×4+2×6=92GB。其它扩展应用系统9G的数据量,并要求每两天增量备份,一周一个全备份,保存两个全备份版本,每天数据变化量为1G, 需要的存储容量为9×2+1×3=21GB. 因此,这个图书馆所需购买的存储设备(磁带库或磁盘)容量至少103GB。再考虑每年的数据增长50%,规划3年的用量,则需要大约230GB的容量。

    当需要恢复某个应用的数据时,可以透过集中管理服务器的GUI查找指定数据的位置,申请备份服务器将备份设备中的数据取出来,并通过网络传送到相应的应用服务器上. 如果是备份服务器上的应用需要恢复数据,它就将数据直接存到相应的目录下。

    SYMANTEC的备份方案不仅完成数据的备份和恢复,还支持操作系统的备份和快速恢复。它可以周期性地将操作系统环境(包括应用软件代码及配置)等完整的影像备份到服务器上,一旦应用系统遭到破坏,需要重新部署时,可以采用备份的影像在几分钟内将操作环境恢复到备份点时的状态。

    如果要求在任何灾难后数据都不丢失,而继续恢复使用,可以将磁带离线远程保存,即送到另外的地方甚至是另一个城市存放。当发生软硬件故障造成数据丢失时,可以从本地的备份设备中恢复数据;当发生火灾、地震等场地灾难后,可以利用远程保存的数据恢复系统。

    显然这里建立的数据保护系统是完备的、功能强大的,可以预防任何灾难带来的图书馆管理系统的数据丢失,实现:


  • 集中的数据备份与恢复管理
  • 统一的数据与操作系统保护
  • 支持所有灾难后的数据恢复
  • 高性能备份与优化的资源利用率
  • 完全自动化的管理,低管理成本

    2. 集群与存储管理系统

    数据备份和恢复可以满足最基本的数据可用性需求,但是这种离线的数据恢复周期一般较长,一些关键业务情况下是不能忍受的。尤其象图书馆的核心管理系统,瘫痪期间,整个图书馆不能运转。因此对于条件好的学校或单位,需要考虑增加更先进的技术改善关键系统的高可用性。

    在最简单的图书自动化管理系统里,数据库服务器及核心应用一般运行在单台服务器上,数据存放在这台服务器的多个磁盘上。单个磁盘的毁坏将会毁掉所有的数据,因此通常采用逻辑卷管理软件将这些磁盘作成容错的逻辑卷,预防这种磁盘故障。

    在规模大一点的图书馆里,通常采用磁盘阵列存放数据。但是磁盘阵列的故障同样会引起数据不可存取,从而导致应用停顿。因此在条件允许的情况下,通常推荐配置两台阵列,存放两个数据副本。

    两种情况都需要逻辑卷管理软件来实现数据的容错功能。

    再看应用服务器,任何硬件错误(CPU板坏、网络接口坏、内存坏、磁盘接口坏)、病毒入侵都造成应用不能运行,前端用户不能存取应用数据。所以需要考虑加强机器的可靠性。除了冗余机器内部的硬件外,有条件的图书馆通常都采用机群方式提高系统的可用性。即多台服务器互为备份,当一台服务器因为故障不能工作时,另一台服务器接管它的应用,继续提供先前的服务。

    Symantec公司的产品Storage Foundation HA是一个完整的高可用性解决方案,它提供 逻辑卷管理、磁盘阵列镜像、及集群功能,特别适合图书馆管理系统环境,其部署示意图如下:


    中心数据库系统是关键系统,需要集群技术提高可用性。数据库的数据也是关键数据,需要镜像技术将其保存到两个磁盘阵列上。一般构建集群时,需要增加一台后备主机。为了降低成本,也可以利用期刊管理服务器或其它应用服务器作为数据库服务器的备份服务器。因此将Storage Foundation HA安装在数据库服务器和期刊服务器上,一方面它将所有存储到数据库的数据同时保存到磁盘阵列1和2上,使数据有两个copy, 另一方面当数据库服务器出故障时,在几秒钟内将数据库及其应用切换到期刊管理服务器上。

    因此无论是一台主机出了毛病还是一台磁盘阵列有故障,都不影响核心图书馆管理系统的运行,保证了图书馆基本业务的持续性。

    集群和逻辑卷管理是在备份系统之上的进一步提升,它不能替代数据备份系统,因为所有的逻辑错误(病毒、人为出错)都要靠备份系统来恢复。另外备份系统管理的应用更广泛,还有备份系统的数据是离线的,可以方便地保存在任何地方。

    3. 容灾系统

    正像上面的分析说明,对于要求更高的大学,还需要建设这个系统的容灾系统,以保证当主系统由于灾难而停止运行时,容灾系统接管它的工作,继续提供服务。Symantec提供适合大学图书馆的多种灵活的解决方案。

    如果两个园区之间已经铺设了基层光纤,并且距离在50公里以内,现有的集群与卷管理系统则不需要太多改动就能够支持两个校园之间的容灾功能。在实施时只需要将集群中的一台服务器和一台磁盘阵列搬到校园2的机房中,部署如下图所示:


    当本地出现灾难(硬件坏、火灾、停电)时,校园2容灾机房中的服务器接管校园1机房中数据库服务器上的应用,存取本地磁盘阵列中的数据,继续提供图书馆日常运行服务。

    如果两个校园之间没有SAN、但有IP网络,可以利用Symantec的复制软件VVR将主中心的数据复制到远程中心,部署如图4:


    这个部署模式中两个校园的主机只能存取各自连接的磁盘阵列,两个系统之间的数据交换全部靠IP网络。VVR是Storage Foundation的一个模块,承担这两个系统之间的数据复制,任何校园1中服务器写入本地磁盘的数据,都被送到校园2的容灾中心去保存一份。复制基于磁盘逻辑卷,与应用系统上的数据类型无关。

    同样的,一旦校园1发生灾害事故,造成应用停机,VCS就启动安装在校园2容灾中心服务器上的相同应用,存取本地磁盘阵列中的数据继续提供服务。

    这个方案还提供简单的主中心灾难后恢复的手段,当应用切换到容灾主机后,其运行时产生的数据会在校园1主服务器系统服务器恢复运行后增量地反向复制到磁盘阵列中,一旦复制完成,VCS可方便地将应用切换回主服务器上。

    基于VVR建设的容灾系统与距离无关,这就意味着不管你的容灾中心有多远,这个架构是一样的,支持LAN或WAN。

    4. 完整的自动化图书馆存储解决方案

    综上所述,数据备份与恢复是自动化图书管理系统最基本的数据保护系统,它能够保证任何灾难后整个应用系统的恢复,解除管理者的后顾之忧,适用于所有高校和社会图书馆自动化管理环境。

    集群与存储管理系统可以进一步提高系统的高可用性,保证单个磁盘或磁盘阵列坏掉不影响数据的使用,同时能够在服务器硬件故障时快速恢复运行。一般是在数据备份与恢复架构的基础上,对影响业务的关键系统部署集群和存储管理。该方案推荐给对关键系统中断敏感的高校或国家图书馆。

    容灾可以对图书馆自动化系统实施最高级别的保护,保证任何灾难下都不影响关键应用。该方案推荐给对容灾有需求的高校或国家图书馆。

    【应用效果】

    Symantec的存储解决方案今天已经运行于许多国内的大学和社会图书馆自动化系统,为这些单位提供全面的数据保护,解决了IT管理者的后顾之忧。目前数字化图书馆仍然是图书馆界的热门话题,中国教育界的CALIS二期正在建设和深化之中,希望Symantec能够为此作出更大的贡献。