专家博客:永流传的石碑与易丢失的数字档案

本文作者Henry Newman是一位行业顾问,在高性能计算服务和存储领域有着28年的从业经验。

我与拙荆曾在去年秋季在纽约中央花园看到一块有着近4000年历史的埃及方尖石碑,石碑保存得相当完好,碑文清晰可辨。

当我们惊诧于这个考古学上的奇迹时,我的妻子不禁脱口而出:"石碑不需要被备份!"

幸运的是,除了Rosetta计划之外,现在再也没人将数据备份到石头上了。但是我妻子却提出了一项重要的观点,那就是电子数据存储和保存引发了许多技术问题,那是古人从未考虑过的。试想一下,别说千年之后,就说10年之后再尝试去读取备份磁带、归档DVD或Word旧文档会是一种什么样的景象? 电子数据存在着格式、迁移和数据完整性等问题,硬拷贝是不存在这些问题的,但是它们也有着自己的保存问题,这一点你可以向考古学家和文档保管专家咨询。

在某些方面,埃及人所使用的简单方法比我们记录和保存信息的方法要好得多。对比一下保存完好的方尖石碑以及你认为保存得很好但现在却无法再读取那种格式的5寸软盘、8轨道磁带和老式录影带,你就可以清楚这一点。 我们所用的软盘、磁带和录影带能够保存3500年的时间吗?

继岩石之后,人类后来又在动物皮和草纸上书写文字,这些媒介很方便书写,但是却保存不了多久。纸张和印刷机就更快了,但是磨损的速度也更快。你是否已经看出了其中的规律? 我们现在使用的电子记录大概可以保存10年的时间。因此,如何记录和记载历史就成为一项越来越艰巨的任务,因为每一代媒体都必须以越来越快的速度被转移到下一代媒体上,否则我们可能会失去许多重要的记录。

人类在10到15年前选择的媒体是纸。以前,数字存储设备的价格太昂贵了。 如今,我们几乎把所有的信息都以数字的形式进行保存,家庭照片、音乐、电影、病历、文档、电子邮件等个人通信记录等等不一而足。但是我们现在构建的这个数字世界对于未来而言也存在许多重要问题,比如格式、框架、界面和数字完整性等等,这些问题都必须经过标准化处理得到解决,那样我们才能更好地将数字记录保存和传递下去。 保存历史就全靠它们了。

元数据框架

首先,我们需要为文件元数据、备份和归档信息建立一个标准化框架。

我们需要一个可以在不同系统之间转换和保存元数据的框架。有些家庭文件系统有多种添加元数据的方法,但是它们不能在各种操作系统之间转换。 当你在苹果、微软和Linux等不同的操作系统之间进行转换时,你只能得到基于POSIX的信息。这还不足以添加元数据。 如果发生灾难怎么办? 这种信息能不能转换到备份设备之中? 各种转送协议如FTP、NFS和CIFS等都不能在不同的系统之间转换元数据。对于微软来说,大部分辅助设备采用的格式都是FAT文件格式,而不是NTFS格式,而FAT格式是不支持NTFS格式在支持元数据时所具有的某些功能的。 对于企业来说,各个厂商提供的要么是版权框架,要么是将所有数据都放在一个用来访问文件系统或管理存储空间的数据库中。那些框架需要配备专门的应用程序来显示和处理文件元数据。 这种解决方案不但不方便,而且保存的成本通常也很高。

存储驱动器和界面

不久之前,我们还在使用5寸软驱来备份系统,然后是3.5寸软驱和CD-ROM,现在则主要使用DVD光驱,也许今年我们就会看到蓝光刻录光驱,再过几年可能还会出现别的新东西。Windows和Mac系统是否支持这些设备呢?

同期,对于企业来说,我们拥有ER-90s、Redwood、9940A、9940B、DLT和许多其他的技术。唯一一种能够长期支持企业应用的技术似乎是大型机所用的3480和3490磁带驱动器。连接这些技术的渠道的情况似乎也是如此。SCSI-FW、FC-AL,甚至FC-2又如何呢? 这些通信界面都已经结束服务了,即便它们现在还可以用,现在的操作系统是否还有支持它们的驱动器呢? 如果驱动器出现一个需要修复的漏洞会怎么样呢? IBM会专门针对大型机来解决问题,但是不会考虑普通的、开放系统企业环境,因为这不但很难,而且代价太高。

显然,随着技术的进步,你必须迁移你的旧数据。当然,现在不需要用岩石来备份了。 你只要了解岩石记录所用的语言就可以了,我们已经能够了解几乎所有的书面通信形式。

数据完整性

就象蹩脚的语言翻译一样,由于成本太高的原因,现代数据完整性很难得到保证。有些文件系统和存储管理框架如ZFS和Hadoop也许可以验证数据的完整性,但是这些解决方案对于普通家庭用户来说似乎太遥远了。 而象闪存那样的候选方案要么解决不了问题,要么存在着其他一些问题。虽然磁盘驱动器的密度在过去的15年里大幅增加,但是它们的硬错误率却基本没有发生变化。 这种硬错误率是指,不管是企业级还是消费级磁盘驱动器都可能出现故障,并最终导致数据丢失,而且用户还要花费大量的时间来重建系统。你可以增加硬件和减少类似故障的发生率,但是这些问题无法从更根本上得到解决。 你可以花大量的投资来解决这个问题,你可以建立一套可靠性非常高的归档档案,但是即便是企业用户,也不是人人都能负担得起相应的成本。

显然,即便是今时今日,岩石仍然有着一定的优势。如果出现设备故障,那么读取其中的电子数据就要求具备专业的知识,甚至具备了专业的知识,可能还是会丢失其中的许多数据。

数据格式

有没有人试着用Word 2007去打开一个1990年时建立的Word文档? 我们都知道所有的文件格式的寿命都是有限的。有些格式如PDF的寿命可能会较长,有些格式的寿命可能会较短,但是没有一种格式的寿命是无限的,而且那些格式可以很快发生变化。我们没有改变和转换格式的框架。在Windows系统下,你可以通过扩展名来识别文件类型,但是它也可能会出现误导。在Mac OS系统下,每一个文件都有自己的元数据,不能转换到Windows系统;在unix系统下的情况也是如此。 另一方面,岩石只存在着与我们今天所面临的问题相同的语言翻译问题。

我妻子并未从事数据存储行业的工作,但是她显然知道数字资料管理比以前的信息管理更为复杂。数字资料管理的概念、技术和标准到现在都还没有成型。我不知道现在是否有人能够解决这些问题,但是如果标准团体不能解决这个问题的话,那么对于我们长期管理数据是没有什么帮助的。许多数据就会开始丢失,这只是一个时间问题。 几千年之后,那时的人会如何看待我们现在的情况? 如果我们想为后代留下方尖石碑,那么我们最好现在就开始这么做。