漫谈重复数据删除和归档

重复数据删除的首次真正进军的市场是备份领域。它提供了标准的磁盘到磁盘备份的一种替代选择,以让用户的数据保留更长的时间。备份和重复数据删除可以说是相得益彰,因为在完整的备份工作中有大量数据是相似的。但是重复数据删除在归档上是否有意义?

其实,对这类讨论的终结取决于客户如何界定归档,需要保留多长时间的数据以及保留数据的动机。

重复数据删除设备在备份市场会达到20倍以上的存储效率,但在这个市场上的管理者们在完整备份的操作上是有一定频率的。通常情况下,客户在每天的工作中可能只能达到4到6倍的效率。平均来说,我们在一套备份重复数据删除上往往看到约12到16倍的存储效率。 (接下来我们将细谈备份重复数据删除的比率。 )

目前归档有许多用户实例,但有两个较常见的动机是为降低成本而将主存储上旧数据迁移,或储存数据以满足法律或企业管理的要求。在这两种情况下,数据是在特殊目的下专门放置的。而且这些往往是独一无二的文件,因此,文件间的共同点比较有限的,在这种情况下2倍到4倍的存储效率是一个典型的平均水平。

当然也有例外。在归档存储上进行的重复数据删除效率会存在高效的可能。我所知道一些机构为数据库产品每晚归档,使他们可以在任何时候都可以控制数据。例如,有一家机构使用一个数据库来追踪数据活动。他们希望能够跟踪任何不一致的活动并在数据库体现。虽然这一数据库每天会进行数以千计的更新,不过每天的百分比变化不大。他们使用的归档系统还可以做分级重复数据删除,因此,重复删除的效率会远远超过30倍。

另一个例子是VMware公司。我所知道的一些机构将VMware VMDK文件统一到一个归档系统来让任何操作系统保存,或进行实际的虚拟机归档以限制虚拟机蔓延。

最后一个使用案例可能会在整合数据备份和归档系统上有一些好处。如果客户有一个进程将档案归档,并且存档已经包含来自于备份的文件的字节级信息,那么客户就可以创建较少的归档,不需要在存储上投资。请确认你的重复数据删除系统可以以对等的方式扩展保留信息。另外,请确保你的备份软件在不同的字节流模式下不写入数据,而归档系统可以做到。

虽然还有其他一些重复数据删除在归档上应用的案例,不过这都不是选择归档系统的主要决定性因素,除非你有一个以上的具体要求。归档系统需要检查可扩展性,数据安全,数据安全,保留功能,权限访问以及电源效率。

本文作者George Crump是Storage Switzerland创始人。这一网站为存储用户、供应商和集成商提供战略咨询和分析。此前,他是某家公司的CTO。