专家博客:重复数据删除使用心得(上)

本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。 

DOSTOR存储在线1月7日国际报道:重复数据删除,至少是针对备份数据的重复数据删除技术,已经进入主流行列。不过,"重复数据删除"这个术语的应用范围是那些一次性存储数据的技术,即使这些技术被告知要存储这些数据许多次。由于所有这些技术对于所存储的数据来说都很敏感,因此"每个人的情况都有所不同"。随着2010年结束,我觉得在这里可以分享一些对重复数据删除技术的心得。

一定要确保你的重复数据删除解决方案支持你的备份解决方案。虽然大多数重复数据删除系统可以在某个强制指定的数据流中发现重复数据,但是如果让系统知道数据背景的话,大多数系统可以得到更好的结果。基于哈希算法的重复数据删除系统将数据分解成各个块,然后剔除重复的数据块。虽然它们在每个新文件的开头都会起一个新块,不过大多数备份应用程序是将数据存储在汇总文件内的,比如Unix tarball或ZIP文件。

如果你的重复数据删除系统知道你的备份程序所使用的汇总文件格式,它可以在来自备份的来源数据流中给每个文件起一个新块。这可以让系统分辨出更多的重复数据。除了你的数据,汇总文件还包含备份程序用于加速恢复流程的索引信息。如果你在固定块重复数据删除系统上存储备份数据,和大多数对数据进行重复数据删除的主存储系统一样,这个索引信息可能会切换数据从而导致系统不知道今天的备份包含和昨天一样的数据。

一定要在同一个重复数据删除池中保存类似的数据源。如果你的重复数据删除系统不能在单个池中存储你的所有数据,你可以将数据分割,从而让系统在同一个池中承载类似的数据。你可以将文件服务器放在一个池,将Oracle服务器放在另一个池。比起将所有纽约办公室的数据都放在一个池而将所有芝加哥办公室的数据放在另一个池的做法来说,按文件类型划分的做法可以获得更好的重复数据删除效果。

欲想了解更多,请阅读:专家博客:重复数据删除使用心得(下)