专家观点:归档数据也有不同类型

尽管我们说数据用户并不会经常修改归档数据,但是这并不意味着这些归档数据都是一样的。根据数据来源和使用模式,可以采用不同的存储技术和媒介来更好地服务于不同类型的归档数据。

归档数据的最常见的类型是那些可能需要用户透明地访问的电子邮件信息以及放入归档中的文件。系统管理员认识到随着对象年龄的增加,对象访问率在迅速下滑,因此他们设定了一定的策略来将30天或60天以上年龄的对象迁移到归档存储系统中,并用某种类型的指针或存根来替换它们,用户仍然可以从这些数据当前的邮箱地址或目录地址中访问这些数据。一些组织受制于严格的规制要求,比如SEC(证券交易委员会)17a-4条款规定一些数据必须被保留,这些组织可以归档它们所创建和/或发布/完成的数据,然后在这些数据达到30-60天的年龄之后将原始文件替换成存根。

由于用户是透明地访问这些数据,因此归档系统的速度必须足够快,以便能够在不产生明显延迟的条件下检索数据。虽然归档并不需要像主存储那样快,但是由于归档没有随机I/O(输入/输出),因此它必须能够在一秒钟的响应时间内检索到这种类型的数据。

在一定时间后——比如,SEC 17a-4规定数据必须可以在2年时间内方便地检索,保留时间为7年——透明的访问成为并不那么重要的问题,而归档解决方案可能会删除存根,仅留给用户一个归档的UI(用户界面)和索引系统来作为主要的访问手段。由于我们从实时访问变成了查询/响应模式,因此归档系统可能需要数十秒到数分钟的时间来访问所查询的对象,同时这样不会严重影响用户的效率。第二层的归档存储同时也符合潜在电子发现的数据保留需要。

然后是不仅需要保留7年,而是需要保留70年或700年的深度归档。一部电视剧或电影所有的胶片记录,每架波音飞机的竣工蓝图,建筑公司或建设部门的图纸,医院的数字X射线图等文件以及其他数据一般都放在仓库中。此外,除了商业记录外,还有扫描的照片或历史文档,这些文件在实际生活中可以堆满数英里长的文件架。这种数据在系统中一般需要数分钟(对于那些数字X射线图)到数小时的时间来检索。

需要注意的是,这种深度归档数据一般由大型对象所组成,而这些对象一般是集中检索的。波音可能需要调出3年内所建造的所有关于737飞机尾部的文件,以便查看哪些尾部含有FAA(联邦航空局)所称的需要更换的旧类型部分;Lucasfilm(卢卡斯影业)有可能希望调出所有的《星球大战》胶片以便制作一个新的蓝光特辑。

虽然所有这些数据都可以存储在磁质的磁盘系统上,并配有或不配有MAID(大规模闲置磁盘阵列),但是能耗、空间和定期迁移要求可能会让其他的介质看起来更加具有吸引力。