众志和达:数字化图书馆存储备份技术

    当今的社会是一个信息时代,随着数字信息技术、网络技术的飞速发展,作为信息拥有者与提供者的传统图书文献机构―― 图书馆,面临着自动化、数字化、网络化的挑战,需要不断的调整收藏结构和服务方式来适应信息社会的需求。全面实现海量电子图书资料存储、分布式信息存取和共享的数字图书馆在世界各国应运而生。近年来,联想在建设数字化图书馆方面取得了大量的成果,提出了一套数字化图书馆的系统解决方案。


    数字图书馆定义


    数字图书馆在本质上就是一个集数据库应用平台、信息资源电子商务平台与资源数字化加工服务平台于一体的巨大数据仓库,以互联网为平台,面向全球用户提供基于内容的服务。作为图书馆发展的方向,数字图书馆应以统一的标准和规范为基础、以数字化的各种信息为底层、以分布式海量资源库群为支撑、以智能检索技术为手段、以电子商务为管理方式,以宽带高速网络为传输通道,将丰富多彩的多媒体信息传递到千家万户。但是,随着数字图书馆事业的不断进展,由于理念和思路的不同,各家数字图书馆的模式也有很大的不同。


    Soul对数字化图书馆的定义为:


    在互联网的支撑下,以内容管理为核心,以海量信息处理、知识发现与加工交流为主要技术手段的智能知识服务基础平台,是运行在互联网上的、超大规模的、便于使用的、没有时空限制的知识中心。


    背景资料


    数字图书馆是采用现代高新技术所支持的数字信息资源系统,是下一代因特网上信息资源的管理模式,将从根本上改变目前因特网上信息分散不便使用的现状。通俗地说,数字图书馆是没有时空限制的、便于使用的、超大规模的知识中心。


    作为知识经济的重要载体,数字图书馆是国家信息基础设施重要组成部分,目前已成为评价一个国家信息基础水平的重要标志和本世纪各国文化科技竞争的焦点之一。对于我国来说,数字图书馆的研发起步较晚,因此,建设数字图书馆更加具有必要性和紧迫性。其重要意义在于:


    首先,数字图书馆将改变以往信息存储、加工、管理、使用的传统方式,借助网络环境和高性能计算机等实现信息资源的有效利用和共享。它的建设将使我国在综合国力的竞争中抢占先机,掌握发展的主动权,实现跨越式发展。


    其次,数字图书馆建设的核心是以中文信息为主的各种信息资源,它将迅速扭转互联网上中文信息匮乏的状况,形成中华文化在互联网上的整体优势。我们要通过数字图书馆的建设,将我国悠久的历史、灿烂的文化,特别是当代建设的成就通过互联网向全世界展示,让世界了解中国,让中国走向世界。


    第三,数字图书馆的建设将促进我国信息技术的发展,同时带动与之相关的计算机技术、网络技术、通讯技术和多媒体技术等各项高新技术的迅速发展。这些高新技术迅速转化为现实生产力, 将对我国知识创新体系的建立起到极大的促进作用。


    第四,数字图书馆建设是”科教兴国”战略的源泉和动力,也是实现公民终身教育的大课堂。数字图书馆以其对信息资源的整理加工和有序组织,为”科教兴国”战略提供了最为便捷、有效的发展环境。同时,数字图书馆可以最大限度地突破时空限制,营造出进行全民终身教育的良好环境,对于我国国民素质教育将起到巨大的提升作用。


    第五,数字图书馆将改变目前图书馆的工作方式和服务模式。数字图书馆可以更好地履行图书馆在倡导、组织和服务全民读书中的重要职能。图书馆馆员将成为捕捉和整理信息的专家,读者可以在世界各地通过网络阅览数字图书馆中的丰富信息。图书馆的发展将进入一个前所未有的新阶段,发生根本性的变化。


    系统原理


    从系统结构上看,数字图书馆是一个以数据存储系统为核心和低层支持,配合业务应用系统进行多功能数据查询服务的大型数据库应用解决方案。在数字图书馆中,数据的存储和管理是整个系统的核心部件,一切的应用服务全部由处于核心位置的数据存储和管理系统来支撑。为了便于理解,我们将从两个方面来分析数字图书馆的系统原理。


    数字图书馆的业务应用体系


    从数字图书馆业务应用的角度看,一个完整的数字图书馆应该由三个层次组成:


    1. 元数据服务器和对象服务器;


    2. 图书馆应用系统


    3. 具体应用部件


    在数字图书馆中,数据库的管理和操作是最核心的问题,所有的电子图书、期刊和多媒体数据全部存放在元数据服务器中,它是整个数字图书馆的支撑点。这部分的服务主要分成三个部分:


    数据库服务器


    数据库服务器的作用是处理大量的数据存取、检索和管理,它是支持支持整个图书馆的最底层服务器,由于数字图书馆的数据存数量很多,所以对于数据库服务器的性能要求也相对比较高。一般需要使用服务器集群技术(Cluster),如使用联想的NS集群系统,由两台或者两台以上独立的计算机系统互联,功能上是作为一个单一系统,从而提高整个系统的可用性及性能。在数据库的选择方面,推荐使用一些大型的数据库软件,如Oracle、Sybase等。


    海量存储设备


    数字图书馆的数据资料是非常庞大的。单单使用数据库服务器本地硬盘根本不能满足数据存储的要求。另外,为了达到高数据处理能力的要求,现在的数据库服务器一般使用集群(Cluster)技术,多台服务器协同工作。在这种情况下集中使用海量存储设备可以提高集群的工作效率。


    随着技术的发展现在的海量存储设备主要产品是使用光纤通道技术(Fibre Channel)技术的存储区域网络(SAN)来实现。SAN是位于服务器后端,为连接服务器、磁盘阵列、带库等存储设备而建立的高性能网络。因此又称为后端网络。


    SAN提供了灵活的存储连接,服务器可以访问存储区域网上的任何存储设备,如带库、磁盘阵列;同时存储设备之间、存储设备同SAN交换机之间也可以进行通信。


    SAN不是一种产品,而是一种独立于服务器网络的一种专门的网络,这种网络通过采用光纤通道协议来传输数据,在连接上可以使用光纤或铜缆。由于光纤通道协议具有极高的可靠性、很好的性能、超长距离支持能力、良好的扩展性,因此SAN使得将存储同服务器分开成为现实。


    存储区域网特别适合于服务器集群、大型数据存储、灾难恢复等关键领域。


    对象服务器


    对象服务器是各种应用系统的支撑服务器,所有的应用服务系统都要运行在对象服务器上。
元数据服务器和对象服务器为整个数字图书馆的系统服务提供了基础的硬件设备,构成了数字图书馆业务体系的底层托盘。


    数字图书馆的网络结构分析


    现代型的数字图书馆在网络结构上一般都是由数字图书馆系统管理服务器、数据库服务器和各类应用服务器组成局域网络,向外部提供各类的业务应用服务。同时所有的服务器通过SAN共享海量存储设备,在保证高可用性的前提下,尽量节约存储冗余空间,使用集群技术提高系统的性能。
其具体的功能实现是:在一个局域网内搭建业务支持平台,每个应用服务模块使用双机或者多机集群技术,提高模块的性能,后端使用SAN存储,外部使用统一的网络出口并使用硬件防火墙把内部网络和外部网络进行隔离,屏蔽外部的网络信息,确保整体的安全性。


    传统应用方案分析


    目前,图书馆内提供数字图书服务的资源多种多样,在传统的方案中资源库采用DAS的连接方式较多,这样的存储方式在集中存储,扩容以及管理等方面都给校方带来很大的不方便,下图为这种方式的应用:



    这种方案在SAN网络构架还不成熟的时候,是比较常用的图书馆系统方案解决办法,其特点是结构简单,直接通过一根SCSI线把磁盘阵列连接到服务器上实现数据存储的扩容,但是,这种方式存在着最大的弊端就是数据传输距离很短,SCSI连接线极限值只有25米,对于一个大型的计算机中心,如此长的传输距离是远远不够的。同时,由于使用线缆而导致的干扰,会严重影响数据传输的准确性和安全性,尤其是在大量服务器集中的机房中使用SCSI直连的方式是非常不科学的。这种存储方式在实际应用中已经逐渐被淘汰。随着光纤SAN存储技术的成熟,使得集群共享后端海量存储的方案成为可能,这一存储形式的推出,淘汰了原有的传输速率低下、数据传输误码率高、无法实现数据大集中的DAS直连存储方式。为图书馆的数字化发展提供了更为先进的技术和更大的发展空间。下图为其应用方式: