本文作者George Crump是Storage Switzerland的创始人,同时也是George Crump Consulting的创始人。
我想在重复数据删除讨论中做一些回顾性讨论。迄今为止我还没有很好的归纳重复数据删除,或许可以用其他不同的方式。让我们先来讨论重复数据删除的模式。我认为有五种模式:重复数据删除,数据复制,维护,休息与恢复。还有第六种模式,就是迁移到磁带,这是大部分数据中心还是会碰到的问题。我将一个一个地讨论这些模式。也许我会用数篇文章来讨论一个模式。也许我不会在一篇文章中讨论各个模式的所有方面,我希望读者能耐心一些。如果你认为我漏讨论了某种模式,烦请指出。
重复数据删除模式就是包括我本人在内的业内人士经常讨论的重复数据删除进行的时间和位置。如果你是重复数据删除的用户,虽然这种模式很重要,但是最重要的是重复数据删除流程是否能够在你所要求的时间范围内完成,以及这种模式的最终结果是否能够带来足够的优化水平以便使重复数据删除成为值得的投资。
通常来说,重复数据删除要么是在数据被发送到备份设备以前进行,要么是在数据进入备份设备的时候进行。提前进行重复数据删除(通常称为来源端重复数据删除)的优点是可以减少备份网络的负担,而且可以使数据的实际存储变得更快,缺点是这种方式需要更换备份应用程序或需要从当前备份软件提供商那里要来新的代理端。另一个潜在的缺点是它可能会给正在备份的服务器带来性能上的影响。最近几年,随着软件提供商改进代理端,性能问题看起来已经缓解了。此外,随着备份服务器CPU的处理性能提高,性能问题也得到了一定缓解。简而言之,它们可以进行更多的任务。
另一个进行重复数据删除的方法就是在目标端进行重复数据删除。这可以通过备份应用程序本身来进行或通过重复数据删除系统来进行。在这些情况下,整个备份数据集需要在网络上传输,这和大多数其他备份流程没有什么不同。优点是这不需要备份代理端或备份流程进行什么变化。用重复数据删除系统来进行重复数据删除的方法通常是利用一个带有重复数据删除功能的基于磁盘的设备,而这种设备差不多相当于当前备份应用程序的目标端。如果利用备份软件来进行重复数据删除的话,那么还是需要更换当前的备份应用程序。
哪种方法是最好的?实际上,这要看的。所有厂商都声称他们的产品有非常好的性能。来源端重复数据删除在网络带宽紧张的环境中可能有一些优势,但是就像增加重复数据删除功能的备份应用程序,它们需要对备份软件进行修改。在这两种情况下,迁移到其中一个产品就意味着认真地考虑切换到一个新的备份应用程序。另一方面,重复数据删除系统不对环境产生大的影响,并且可以提供存储效率,但是随着底层数据集的增加,它们还是要求备份架构进行同样的持续投资。
在重复数据删除模式下,每种方法都值得我用一篇或两篇文章来展开讨论,也许我回过头来会这么做。但是现在,我的下一篇文章将重点讨论下一种模式:复制。