从美国国会图书馆新归档系统看归档应用新趋势

DoSTOR存储分析 10月14日国际报道:美国国会图书馆(LoC)选择Sun的GMRI(Government Micro Resources)建立多层存储系统 已经有一年多了,该项目是针对位于Virginia Culpeper的新艺术国家视听资产保护中心(NAVCC)的。

这个归档系统是一个巨大的数据仓库,里面的内容琳琅满目:超过11亿个移动图像项目(包括电影、新闻影片、广告素材),近3百万音频(包括商用录音、广播节目、早期历史人物的声音记录),超过210万个文件(包括电影剧本、手稿、照片)。图书馆将他们分成电影、广播、记录语音几个部分,同时,还有在该归档系统完成以后新获得的多媒体资料。

国外专业存储媒体的工作人员最近与图书馆信息技术服务(ITS)小组成员一起审视了这个浩大的归档工程,并作出了项目实施进度报告,下面,我们就看看该小组可以为其他也想上类似项目的机构和企业提出什么样的建议。

了解你自己的速度和数据量

这个将要投入生产的资料馆的归档是一个多层次的,大多是基于磁带的解决方案,由Sunx64 Fire服务器和Sun存储组成,运行solaris 10操作系统。它的建设者ITS团队相信它能够按照要求完成任务,并且最终一年能够存储多达8P容量的媒体库。这是因为,据团队成员称:该项目从一开始就做了正确的部署。

"前期我们通过大量的计划和调研制定了提案企划书",一位项目经理Sarah Gaymon说。因此,图书馆在对这套系统有什么要求和期望方面有了非常好的把握,并确信所选的任何厂商或集成商也都知道并理解这方面的情况。

事实上,据图书馆在NAVCC项目上的信息技术专员Thomas Youkel称,最开始就要弄清系统的长期存储需求很关键,并提醒其他将部署大型存储系统的机构和企业也要先明晰这一点。

"你要知道你的速度和你的数据总量"。Youkel解释说:"你要清楚吞吐量需求、吸收率以及体统将要接受多少数据总量。你必须预见到这些,因为为了建立和测试这样一个年存储量8P的系统,我们需要知道每天是多大数据量、我们的FC部署、骨干架构安排以及满足这样数据量要求的一个可接受的最低硬件配置。"。

提到"速度",Youkel 说"如果你是往磁带里写数据"(该图书馆就是这么做的),"你得知道这个写操作的速度,尤其是对于这种年存储量高达8PB的系统来说。"

更多的测试

对系统每一个部分都要做仔细的测试也非常重要!Youkel着重提到。

"当集成商和厂家提出一个方案的时候,你一定要能够对他进行测试才行,这样才能够确定他们所说的那些性能放到综合的系统环境中是否能够实现。所以说,项目顺利进行的关键不仅仅是弄清需求,测试也是非常关键的"。但是在细节方面Youkel拒绝透露更多,他只是说"我们做了一系列的基准和性能测试来考察设备是否满足或超出需求。结果是它们确实达到甚至超出了需求"。

事实上,在过去的一年里,该档案系统已经经历了相当多的性能测试和再测试。去年秋季和冬季在图书馆位于美国国会山的Madison大厦经过最初的组装和测试,今年夏天又经过繁杂的拆解,运到东南60里VirginiaCulpeper的navcc进行重新装配,之后再进行测试。

此外,为确保该系统得到了妥善的组合,ITS团队需要测试确认这个归档系统可以与navcc网络、通信设施以及灾难恢复站点沟通无误。

事实上,直到现在该系统仍处于压力测试中,并预计本月投入生产。这之后,系统前端—-归档系统的用户即图书馆服务器和MBRS将会集成到整个系统中来,之后会做整体的测试。相关工作人员一直在进行系统前端开发设计和平行建设。设计方面有Ascent Media的帮助,集成和安装方面有通讯工程公司,软件方面则是Gustman Group。

保持高度警惕

虽然已经有数人筹备该档案系统,再加上GMRI 和Sun的技术人员和工程师,至少15名员工,而且这只是完成档案后端的部分工作的人数。不过,一旦数字典藏系统完全投入使用,预计图书馆将仅仅需要在culpeper 安排3个工作人员对NAVCC进行维护。除此以外,作为维护过程的一部分,ITS会持续审核数据,并会按标准将他们逐步迁移到密度较高的存储设备中。他将成为国家的一部音像史册。