存储分析:解决常见重复数据删除系统问题

有人说我们从来没有真正解决任何IT问题,我们只是转移了这些问题。重复数据删除同样也不例外。虽然重复数据删除系统使得我们的备份和恢复变得更加简单,但同样也存在许多挑战。精明的存储或者备份管理员能够通晓这些挑战,并且尽一切可能来解决它们。

你的备份系统有三种不同的创建重复数据的方法:重复所有文件系统或应用的备份;重复文件系统或应用增加的备份;以及备份到多个地方(例如:位于同样操作系统或应用程序的多台机器)的文件。基于Hash的重复数据删除系统(例如:CommVault Systems公司, EMC 公司, FalconStor Software, Quantum公司, Symantec公司)能识别和删除所有三种类型的重复数据,但是粒度级别受限于它们的块大小,典型的块大小是8K或者更大。基于Delta-differential的重复数据删除系统(例如: IBM公司, ExaGrid Systems, Sepaton公司)则只能识别和删除前两种类型的重复数据,但是它们的粒度级别能够小到byte级。这些差异在重复数据删除率方面通常打成平局,但在某些特定的环境中能产生明显的差异,这就是为什么大多数专家建议你测试多种产品的原因。

由于在绝大多数的备份数据中大约有一半的重复数据来自于多个完全备份。使用IBM的Tivoli存储管理器(TSM)作为备份产品的用户相比于使用其他备份产品的用户,能获得更低的重复数据删除率。这是因为TSM的逐步增量功能,用户无需在TSM备份的文件系统上再进行全备份。然而,由于TSM用户对他们的数据库和应用执行了全备份,并且由于全备份的数据并不只在重复数据被发现的地方存在一份,TSM用户依然能够受益于重复数据删除系统——他们的重复数据删除率将会更小。

第二种类型的重复数据来自于增量备份,增量备份包含着自最近一次完全备份以来,文件或者应用程序的多个版本。如果一个文件每天都被修改和备份,而且备份系统的备份保留期为90天,那么这个备份系统中将会存在该文件的90个版本。一个重复数据删除系统将会识别这90个不同版本中的唯一数据片段和冗余数据段,并且只保存唯一的数据片段。然而,有些文件类型不存在不同的版本(例如视频,音频,照片或图像,以及PDF文件),每个文件其自身就是独一无二的,并且不会和同一个文件的先前版本有重复。拥有这些类型文件的增量备份将完全包含这些唯一的数据,因此没有任何重复数据可以删除。考虑到重复数据删除存储的相关成本,一些拥有此类文件占很大比重的用户考虑不将这些数据存储在重复数据删除系统上,因为除了增加成本,他们得不到任何好处。

重复数据删除系统和加密:你需要注意什么

重复数据删除系统通过查找和消除的模式工作;加密系统通过消除模式工作。不要将你需要备份的数据在发送到重复数据删除系统之前进行加密——-否则你的重复数据删除率将是1:1。压缩工作有点像加密,它同样是查找和消除模式,只是采用了不同的方法。绝大多数压缩系统的这种方法将导致数据的不规则性从而产生像加密一样的效果;它同样可以使你的重复数据删除系统完全失去处理这些数据的能力。

压缩的挑战经常会导致想要备份变得更快的数据库管理员和希望进行重复数据删除的备份管理员之间的僵局。因为数据库经常产生容量很大但实际数量很少的数据,因此它们非常需要进行压缩。这就是在打开了备份压缩功能后通常会比没有压缩快2到4倍的原因。避开这个特殊挑战的唯一办法是使用一个备份软件产品,这种产品集成了数据源重复数据删除和客户端压缩的功能。例如CommVault的 Simpana, IBM的 TSM 或者 Symantec 的NetBackup。

复用和重复数据删除系统

备份系统重复数据删除的下一个挑战是它只能应用在那些使用了虚拟磁带库(VTLs)和支持复用的备份软件的公司,复用多个不同的备份到同一个磁带驱动器上会扰乱这些数据并且完全挫败所有的重复数据删除。即使有产品能够破译来自一个复用镜像的不同备份流(例如FalconStor, Sepaton),我要告诉你的是,不要对他们的设备进行复用备份,因为那只是浪费时间。

考虑去重开销

备份重复数据删除的最后一个挑战是必须使用备份窗口,这种方法很可能使得一些重复数据删除系统在执行重复数据删除任务时导致要进行的备份变得很慢。很多人都没有注意到这个现象,那是因为用户是将数据从磁带转移到磁盘中,并且重复数据删除系统仍然高速运行。然而,已经使用磁盘分段的用户可能注意到备份性能的下降以及备份数据所消耗的时间的增长。不是所有的产品都有这个特殊的功能,而且所表现出来的程度也不同,你只有在你的环境中做一个测试,才能详细了解情况。

恢复的挑战更加容易理解,大多数重复数据删除系统存储数据的方式导致了最近备份以零碎的方式进行记录。如果备份系统没有做重复数据删除,那么重复数据删除备份的恢复操作可能需要花费更长的时间。这种现象被称之为“去重开销”。

当考虑去重开销时,想想你是否计划使用重复数据删除系统作为磁带复制的来源,因为去重开销在大型恢复和磁带复制中非常普遍。例如,假设你计划使用具有140MBps速度和1.5TB存储容量的LTO-5驱动器,再假设你已经检测了你所有的备份磁带并且发现你有2.25TB的数据需要存到1.5TB的磁带上,这意味着你需要获得1.5:1的压缩比率。这也意味着在复制的过程中你的140MBps的磁带驱动器实际上应该以大约210MBps的速度运行。确保在运行期间,重复数据删除系统能够提供运行的需求(如例子中的210MBps),如果不能够,你可能需要考使用另外一个系统。

重复数据删除恢复的最后一个挑战是他们仍然在恢复,这就是为什么重复数据删除系统不是一个“万灵药”。一个必须进行恢复的大型系统,要求能够实现数据从重复数据删除系统到产品系统的大容量复制。只有将你的备份系统进行总体架构上的改变,如从传统备份系统变成具有连续数据保护(CDP)或者准CDP的系统才能解决这个特殊的挑战,这样能够使恢复时间保持在几秒而不是几小时。

重复数据删除系统能够在不进行大规模架构调整的情况下,给你带来大幅提升当前备份和恢复系统能力的希望。只是在你签署采购订单之前,请确保能够意识到重复数据删除的这些挑战。