有关“重复数据删除”的10大常见问题与解答

1. “重复数据删除”术语的真正含义是什么?

业内尚没有标准的定义,但我们正在逐步制定。目前普遍认为它是一种可以避免冗余数据存储的技术,而大多数人认为把这种重复数据删除的技术是数据块级的,而非文件级的。这是一项重要功能。举个例子来说,文件级数据压缩系统会将 20个具有不同首页的同一演示文档 (PPT) 视为 20个完全不同的文件;而数据块级系统则会认为各文件中除了首页之外的内容都是冗余的,并且只保留1个文件和所有的20个首页,从而大大节省存储空间。

最有效的重复数据删除技术使用的是“可变长度数据块”方法。采用这种方法的产品会将一组数据划分为很多长度不等的数据块,如果发现重复数据块,它们就会在源文件中插入一个指针,而不是将重复数据块连续存储两次。指针比数据块的占用空间小,因此为您节省了不少存储空间。对于重复数据块反复出现的备份作业来说,这种方法存储的数据量比传统磁盘高出 10 到 50 倍。

2. 如何将重复数据删除应用到数据复制?

复制是指将相同数据从源位置发送到目标位置的过程。如果您希望复制所有备份数据,那么必须有一个性能相对较高的网络提供支持。而借助重复数据删除技术,发送数据的源系统就能够挑拣出复制数据流中的重复数据块。如果某个数据块已发送到了目标系统,那么源系统就无需再重复发送此数据块,而只需发送一个指针即可。由于指针比数据块小很多,因此执行复制作业所需的带宽就大大降低了。

3. 哪些应用程序与重复数据删除技术兼容?是否有不兼容的应用程序?

对于备份作业来说,重复数据删除技术支持所有应用程序 — 电子邮件、数据库、打印和文件应用程序等等,当然还包括各符合条件的备份包。“可变数据块长度”重复数据删除技术能够挑拣出备份数据流中的所有冗余数据。某些文件类型(例如某些富媒体文件)首次采用重复数据删除技术进行发送时,这种方法并不会表现出多少优势,这是因为编写这些文件的应用程序已预先消除了冗余数据。但这些文件在备份多次之后,或者经过某些小改动后再进行备份,重复数据删除技术就会表现出十分强大的容量优势。

4. 如何了解重复数据删除技术为我的数据处理带来的优势?

四项主要变量会告诉您答案。数据变化情况(即加入了多少新数据块);数据的压缩效果;备份方法(例如,是完全备份还是增量备份);数据的计划保存时间。另外,一些供应商(包括昆腾)还将提供“优势计算器”来帮助您进行评估。

5. 重复数据删除技术有何实际好处?

好处有两个。1) 与传统的磁盘备份系统相比,重复数据删除技术可以让您在磁盘上存储更多的数据,这意味着您将可以在短时间内恢复更多的数据。2) 通过标准广域网和复制技术来实现数据恢复保护已切实可行,这减少了用户在磁带处理上的工作。

6. 什么是“可变长度数据块”重复数据删除?如何获得长度可变的数据块,它们对我又有何帮助?

考虑一下相反的情形就会让您茅塞顿开。如果将数据流分割成长度固定的多个片段,那么只要某个点发生变化,之后的所有数据块也将随之发生变化。而长度可变的数据块则允许某些数据片段进行伸缩,而同时不会影响后面的数据块,这样有助于提高系统查找重复数据片段的能力,进而达到大幅节省空间的目的。

7. 将数据分割成多个数据块是否安全?如何进行恢复?

使用指针引用一系列数据片段这一技术经过几十年的发展已日臻成熟,大家每天都在使用,其安全性有目共睹。将一个大文件写入磁盘后,系统会根据空间占用情况将文件以数据块的形式存储于不同的磁盘扇区。“读取”文件时,实际读取的是文件元数据中的指针,这些指针分别指向按照相应顺序排列的不同扇区。基于数据块的重复数据删除正是采用了类似的技术。另外,重复数据删除解决方案供应商往往还会内置多种数据完整性检查功能,用于验证系统运行是否正常以及数据是否还有可用价值。

8. 备份过程中,应在何处执行重复数据删除?

有两个选择。您可以在将所有备份数据发送到备份目标后在备份目标执行重复数据删除;也可以在备份过程中于主机上执行重复数据删除。两种选择各有优势。如果您是在备份过程中于主机上执行重复数据删除,那么通过备份连接发送的数据量将会减少,但是您不得不花时间去管理所有受保护主机上的软件。这会大大降低备份速度,因为重复数据删除作业会增加系统负担,并且还会降低主机服务器上其他应用程序的运行速度。如果您是在备份目标执行重复数据删除,那么通过连接发送的数据量相对较大,但是您可以使用所有备份软件,且只需管理单一目标。由于硬件系统是专门针对重复数据删除技术构建的,所以通常情况下,这种方法的性能要更高一些。

9. 重复数据删除技术可以用于磁带吗?

这个问题没有一个明确的答案。为了方便写入和读取,重复数据删除技术需要具备随机访问数据块的功能,因此,您需要将它部署于基于磁盘的系统中。然而,从重复数据删除数据存储区将数据写入磁带也很容易,事实上,这一做法已广为沿用。如果数据只需存储几周或数月,那么大多数重复数据删除技术用户会采用磁盘;但计划的存储时间较长,则磁带是理想之选。使用经重复数据删除处理后的数据创建磁带后,其中的数据已经过再扩展,因此,在磁带机中便可直接读取这些数据,无需先将其写回至磁盘系统。

10.重复数据删除解决方案的实际价格是多少?

这点很难说,但有条公认的经验值得您借鉴。假如重复数据删除技术的平均利用率为 20:1(业内普遍采用这一数字),那么市场报价应在 1 美元/GB 左右。也就是说,可存储 20TB 备份数据的系统市场报价在 20,000 美元左右,与使用传统磁盘相比,这个价格非常实惠。请注意:价格并非一成不变:顾客喜好势必提高它的价格,而如果零售商或供应商提供折扣的话,价格就会降低。