火星高科助力档案局开创档案收集新途径

随着现代互联网技术发展和普及,传统的档案收集、保存、利用的方式已经不能满足现代城市档案管理的需要,它已经不能完整地、原汁原味地、全方位地承传城市的记忆,原因是现代新生的网络媒体已经逐步占据了很重要的地位。

互联网技术的发展,使整个传统媒体行业受到了极大的冲击,目前对于事件或人物的报导,往往是互联网上各种媒体反映得更快,更全面。网络媒体的特点一是拥有大批的文化素质较高受众,他们既是用户,同时也是信息的发布者;二是传播效率高,传播范围广;三是表现手段丰富,可以用视频、音频、文字、图片、flash等多种方式同时表达。这些都是传统媒体无法或很难做到的,所以在这样的形势下,我们档案管理应该采取什么变化来适应现代信息技术的发展,如何能够很好地传承现代城市文明,更好地真实完整地记录历史,成为当今档案行业面临的新课题。

早在1996年,国际上的档案管理机构就已经开始把互联网的档案收集工作就已经开展起来了。互联网档案馆(The Internet Archive)位于美国旧金山,是一家非赢利性的信息资源数据库,面向全球用户,免费、公开其收集的全部互联网信息资料。自1996年成立起,The Internet Archive定期收录并永久保存全球网站上可以抓取的信息。对于不同的网站,其收录的网页数量和收集周期也不相同,一些大型网站可能每天都会被“备份”一次,每次可能收录数十个以上的网页,而一些小型网站可能每年收录几次,每次只有几个网页。对网站不同时期的历史资料进行研究,是互联网档案馆最大的价值所在。

在当时国际上就提出了Web Archive的概念,它是在互联网发展起来后出现的一个信息资源管理研究与实践领域。目前学界一般习惯于将其译成“网络信息资源保存”、“网络信息资源长期保存”等。“Web Archiv”是指有关主体有选择性地对具有长远保存价值的网络信息进行捕获、归档、存储等档案化管理的过程,其基本目标是通过网络信息资源的存档,更全面真实地反映和再现社会活动的本来面貌,并满足相关主体对网络信息的长远利用需求。

在我国,这方面开展的比较晚,基本上还是停留在实验和探索阶段,而且还是以事件为中心记录了一些互联网上的信息。象2008北京奥运会的专题存档、上海的世博会的存档,它实质上也就是一种基于主题事件进行的有选择的网络信息归档与保存。

实现网络信息的长期保存和利用。Web资源具有更新快、易消逝等特点,如果不及时加以保存,大量具有重要价值的学术、文化、管理信息就会丢失。例如,伴随着行政体制改革,从中央到地方均有行政机构在不断消失。发布在这些政府机构网站上的信息,对学者们研究和了解近当代中国行政生态就是很重要的参考依据,它对全面真实地反映政府管理活动的本来面貌也具有重要意义。因此,对这些政府网站上的信息就需要进行归档和保存。此外,为数不少的学术信息、会议信息、博客信息、论坛信息等根本就不会以纸本信息备份留存,它们也存在彻底丢失的危险,对其进行归档保存更是刻不容缓。

伴随着网络技术的发展,网络信息收集的方法和手段也应该随之发展,这就需要档案管理行业有强大的技术作为支撑,现今的网络信息种类繁多,除文字、图片、Flash还有视频、动画、博客、微博甚至论坛等等,收集工作也需要在技术上不断的变革。如果形成常规化的档案工作,海量信息的保存与再利用就成为非常现实的问题。

火星高科在上海档案馆专业人员的指导下,针对上海世博会,搭建了一套互联网信息采集系统,市档案馆的相关领导和工作人员经数月努力,成功地将“网上世博会”完整采集接收进馆,并通过专门研发的软件、以主动采集的方式把动态网站电子数据完整归档保存,开创了电子档案收集、保存、利用的新途径。归档后的动态网站,不需要依赖于原网站系统即可原汁原味地反映“网上世博会”互动式访问的全部内容,被称为“档案版网上世博会”.

火星高科通过“档案版上海世博会”这个项目,与上海档案馆的相关人员认真总结档案行业需求,专门设计了适合档案馆、图书馆使用的网络信息档案的收集、保存和利用的解决方案。该方案遵循了国际开放档案信息系统参考模型(OAIS),覆盖了“Web Archive”工作链中的所有过程,它包括采集、存储、访问、长期保存、数据管理、索引与检索、系统管理等功能模块。作为国际标准,OAIS在抽象层面上定义和规范了网络信息档案化管理的功能和结构,它是形成和构建标准化的“Web Archive”实施框架的基础。建立在OAIS基础上的“Web Archive”实施框架,其在流程设计上与现行档案管理的流程结构基本吻合。

网络信息档案的收集、保存和利用的解决方案通过多种技术手段,适应目前网络上的多种类信息的采集,文字、声音、视频、音频、Flash、博客、微博等等,由于是模块式的结构,可以通过开发增加模块适应未来互联网多种信息发布形式的采集、编目以及再展现的形式。该解决方案通过页面分析和地址发现:随着互联网大量使用动态展现技术、Flash动画和视音频技术,网页链接地址被隐藏在各种展现的内容中。系统利用地址形成规则使用页面内容分析、用户地址截取、链接地址推测等多种方法准确获取各种页面元素的网络地址。

下载内容的缓冲管理:系统对下载内容进行智能缓冲,实现对同一内容元素的“一写多读”功能,合并对同一个元素的多个下载请求,并支持边下载边展现。

元数据提取和编目:系统提取页面的多种元数据,生成关键页面的缩略图,使用者也可以对网站和频道补充元数据(编目),用户可以设置分类、提取关键词等,形成内容的多种检索途径。

存储与归档管理:当页面数据量逐渐变得庞大时,系统支持对页面中的实体元素(主要是视音频数据)进行迁移式归档,以减少在线存储量。当用户需要访问相关页面时,系统支持“一揽子”回迁,把相关网站或频道的实体数据一次性快速回迁完毕。

页面组织和展现:系统对页面内容地址进行“本地化”处理,即把原来对原始网站的访问(绝对地址)全部过滤和替换成对本地系统的访问(静态和动态替换),以支持对网站的封闭式收藏和原始展现。(参考下面信息档案收集、保存和利用解决方案的逻辑图)

网络信息档案的收集、保存和利用的解决方案为了能够适应互联网技术的飞速发展,专门采用了模块组合式的架构,当随着信息网络档案工程逐步开展起来以后,需求也会有较大的发展,这个方案也会随之大幅度的提升,而这种构架恰恰适应方案的调整,而又不会影响到之前所做的各种档案管理工作。

总而言之,建立网络信息档案在我们国家目前还没有真正形成档案管理所必须采用的手段,但在现代城市中,如果要完整地记录历史,网络信息档案工作已迫在眉睫,但是的确作为档案行业我们要做的事情还很多,也许许多事情还没有准备好,可是我们也不能总停留在实验和研究阶段,只有真正做起来,才会逐步有我们自己的信息网络档案标准,也只有在实践中信息网络档案工作才能得以迅速发展和不断地完善,跟上现代城市发展的步伐。