重复数据删除(de-duplication)软件是近年存储领域涌现出来的一门新兴技术。不过,这门技术直到2006年似乎才真正被“点亮”,成为存储备份领域的一个热门词汇。对存储市场虎视眈眈的各大企业纷纷出手,推出了各自的技术与产品。有分析家说,异军突起的重复数据删除技术,将会改写存储行业的经济规则。
存储巨鳄参与竞争
11月2日,EMC宣布以1.65亿美元收购重复数据删除专业公司Avamar,以增强在磁盘备份领域的实力。Avamar拥有领先的重复数据删除技术。重复数据删除软件只备份经过更改的数据,这与传统的每周或每天备份所有数据的模式形成了鲜明对比,也就意味着重复数据删除可以大量地削减需要备份的数据量。备份厂商Asigra和Avamar以及VTL初创公司Data Domain是最早拥有这项技术的厂商。
像EMC一样,许多存储巨鳄也看好了重复数据删除技术,并想通过并购进入这一市场。2005年夏天Diligent Technologies在推出了采用重复数据删除技术的ProtectTier平台后,就被日立数据收购。现已被昆腾收购的ADIC于2006年3月以6300万美元收购了Rocksoft。赛门铁克2005年收购了Data Center Technologies (DCT),之后基于DCT技术推出了PureDisk远程办公备份软件。
同样,重复数据删除产品层出不穷。对存储市场虎视眈眈的微软就在其新推出的Windows Storage Server (WSS)2003 R2中添加了这个功能,而诸如赛门铁克(Symantec)以及ADIC等存储厂商也开始在其虚拟磁带库、磁盘设备以及网关中提供数据重复删除功能,并把这个领域作为未来的一个重点技术加以投资。目前,昆腾、Asigra、EMC、Data Domain、Diligent、Symantec、飞康软件以及专业虚拟磁带库厂商 SEPATON 、FalconStor等都提供重复数据删除产品。
从技术角度来看,所有重复数据删除产品的主要区别在于文件划分片段的大小不同??是块级还是字节级,以及实施数据重复删除的位置不同??有些产品在备份服务器上,有些在备份服务器后端设备上。
降低成本成竞争焦点
指数级的数据增长给企业的 IT 部门提出了很多挑战,其中包括快速备份和恢复不断增长的数据,满足严格的规章要求,在预算紧张的情况下实现越来越苛刻的恢复时间点目标等。为了解决这些问题,越来越多的用户倾向于采用磁盘设备备份数据并通过网络进行远程数据复制。但这种做法在改善了备份系统性能的同时也面临挑战,首先磁盘存储的价格目前仍然高于传统的磁带存储;其次,由于磁盘不能像磁带那样实现存储介质与读写设备的分离,所以容量不可能无限制扩展;第三,大量数据通过网络进行复制对带宽的要求也非常苛刻。如何解决这些问题呢?采用重复数据删除技术是解决上述问题的最好选择。
目前,很多企业在进行数据备份和存档的时候,对于长期数据的保存都有一个困惑不解的难题,如何降低大量数据的备份量,减少多次全备份的设备成本和维护成本。研究发现,应用系统所保存的数据,高达60%是冗余的,而且随着时间的推移越来越严重,人们可能要花费超过10倍的存储空间和管理成本。
重复数据删除也称做容量优化(capacity optimization)技术或者单实例(single-instancing) 技术,可以消除存储系统中重复的数据,使系统中实际存储的数据或者通过网络传送的数据以几何级别递减,大幅削减存储以及传输成本。分析家说:“异军突起的重复数据删除技术,将会改写存储行业的经济规则”。
是什么赋予了重复数据删除技术如此的魔力呢?
首先,重复数据删除技术不同于普通的压缩技术。压缩是通过压缩算法消除文件内的冗余数据来缩减文件大小,而重复数据删除是通过算法消除分布在存储系统中的相同文件或者数据块。
其次,重复数据删除也不同于普通的增量备份。增量备份的要旨是只备份新产生的数据,而重复数据删除技术的关键是只保留唯一的数据实例,所以重复数据删除技术在减少数据存储量方面更加有效。大部分厂商声称其重复数据删除产品能将数据缩减到正常容量的1/20。重复数据删除技术的基本原理是将数据分块筛选,找出相同的数据块并以指向唯一实例的指针取代。
本报观点
目前看来,重复数据删除技术将以两种形式提供:一种是独立发售的重复数据删除软件,诸如赛门铁克和ADIC等企业提供的产品;另一种就是诸如微软的WSS 2003 R2这样嵌入式的文件系统。
从技术的角度来看,目前市面上应用重复数据删除技术的产品主要区别于实施重复数据删除的地点和文件被分割的片段大小。例如,一些重复数据删除产品在服务器上利用软件代理来压缩数据,将文件分割为不同的片段,在需要的时候复原文件;而另外一些重复数据删除产品在备份服务器后端的设备来运行软件,由这些设备而不用服务器来负责重复数据删除处理。影响重复数据删除性能的因素还包括文件片段的大小、压缩是块级的还是字节级的、所用的压缩技术种类以及是否能够与备份软件整合等,用户在选购的时候应该给予重点考察。
不过,重复数据删除技术的发展也面临一些问题,并这将直接影响其是否能够受到市场的强劲追捧。
第一,二级存储器的价格越来越便宜,所以重复数据删除技术只能吸引那些对主存储器十分倚重的企业机构。
第二,采用重复数据删除技术后,系统要在每次写入数据时校验所有的数据块,避免重复,这样一来,整个系统的备份延迟时间将会被拉长,数据量越大延迟就会越长。目前还没有具体的数字可以直观了解这种延迟的大小,但是有一点很明确,数据量越大,延迟就会越长,用户一定要考虑清楚。