存储知识:如何提高磁盘存储利用率

2011年年底,数据管理学会(Data Management Institute)研究了来自3000多家大型和中小型企业的调查数据,得出如下的结论:平均起来,这些企业正浪费高达70%的磁盘存储容量,保存那些毋须保留在昂贵的磁盘基础设施上的数据。由于重新引用率低,甚至修改率低,大约40%的数据是惰性的,可能适合归档。驻留了孤立数据、违禁数据或者重复数据和垃圾等另外30%的磁盘容量,可以运用数据保健(data hygiene)的方式全部从存储中清除。

  那么,对创建存储回收战略(消除毋须驻留在磁盘的数据以便这些数据占用的大量空间可以被归还至生产用途的步骤)鲜有指引的原因何在?部分的解释可能是:厂商宁愿消费者依附于我所称的多力多滋(Doritos)模式(还记得那句 “嚼碎所有你想嚼的。我们会获得更多!”老广告词吗?)

  然而,由于公司政治的原因,简单的真相是:数据分类可能超出这些公司的权限;也许他们无法规定高薪的销售人员可以使用空间的大小,或者他可以放置文件的时间的长短。或者他们认为这可能超出他们的技能范围。或者他们可能缺少人员、硬件、时间或者预算之类的资源来完成。

  无论如何,要解决浪费的磁盘存储容量的问题,你需要至少做到以下其一:

  · 判断重新引用率低的数据资产的战略(因此可以安全地或者无干扰地从昂贵的存储被移到便宜的、更高容量的存储。)

  · 把较旧的数据资产迁移到容量存储的战略(或者,如果有重复数据和垃圾,把它们全部从存储基础设施移除。)

  我认为,选择归结为:进行数据资产的粒度分析(即第一个战略,个人认为其更为有效),或者使用简单的元数据把较旧的、不经常被引用的数据推向比较便宜的存储介质。

  考虑到很多公司禁止删除任何数据,致力于第二个战略可能更有利。为了把不常被访问的数据资产从生产存储中迁出并移到归档磁盘存储容量或者磁带存储,从而把昂贵的生产磁盘容量预留用于新的和活跃的数据,一个方法是部署简单的分层存储管理(HSM,hierarchical storage management)。通常很多厂商提供HSM只是作为一个软件功能,要么是较大的存储管理软件套件的一部分,要么是独立的工具软件。IBM的Tivoli Storage Manager和EverStor的Hiarc HSM是套件部件方式的两个例子,而Crossroads Systems的 FileStor-HSM是优秀工具的一个例子。最好使用与硬件无关的软件,而不是使用某些阵列所交付的硬件的、增值的HSM功能,以避免昂贵的厂商锁定限制了归档平台的选择。

  大多数软件产品能够设定数据应该何时被移动以及数据应该被移动至何处的策略。这些策略通常由元数据的变动来触发。如果元数据域DATE LAST ACCESSED以及/或者DATE LAST MODIFIED超出设定的限制(即30、60或者90天之后),与元数据相关的文件自动地被移到它的目的地址。

  随着线性磁带文件系统(LTFS,Linear Tape File System)和分区磁带介质(IBM、Oracle的磁带以及LTO 5或以上)的出现,另外一个选择是同时向磁盘以及使用LTFS的磁带写入文件。然后,当数据重新被引用率低于设定的限制的时候,就删除磁盘上的拷贝,文件继续留在LTFS磁带上归档就可以了。

  这种战略以占据容量的数据为重点,在毋须删除数据的情况下提供缓解主存储拥挤的方法。分层存储管理一般优于压缩和重复数据删除等战术性的容量管理技术,它们有时被用于把更多的存储“硬塞”到同样大小的磁盘中。HSM较优的原因在于它在本质上不改动数据(有些类型的数据涉及法律问题),使用所有数据(重复数据删除忽略被加密或者已被压缩的数据),不会由于压缩或者重复数据删除软件的问题而将数据置于损失的风险之中。

  确保你的生产存储避免惰性和违禁数据,也可以向镜像和复制乃至备份的数据保护流程注入新的活力,因为只有生产数据才会接触那些数据保护服务。已经被移动到容量存储的数据以及不经常发生变化的数据通常更少被复制用于保护,而且复制并不影响生产的工作负载。