如果说2006年厂商在重复数据删除领域还处于默默耕耘阶段的话,那么,从2007年春季开始,厂商之间的重复数据删除之争就已经进入了市场爆发期。其实备份软件厂商Asigra和Avamar(现已被EMC收购)、Diligent、Data Domain都在几年前就拥有了重复数据删除技术,但是,从去年年中开始,因赛门铁克、EMC、HDS等巨头的介入,重复数据删除才开始悄悄走进了我们的视野。到2007年春季开始的时候,各家厂商的重复数据删除技术和产品才纷纷涌现出来,恰似“忽如一夜春风来,千树万树梨花开”。
“重复数据删除”这个词是根据英文“De-Duplication”翻译过来的,更直白一点说就是消除副本。ESG将重复数据删除定义为删除或擦去冗余文件、字节或数据块的流程,确保只有“独有”的数据存储在磁盘上。现在关于这项技术,不同的厂商有不同的叫法,除了叫重复数据删除,还有别的名称,比如容量优化、单一实例存储(飞康),先进的单一实例存储(NetApp)。不管命名为何,目的只有一个,即除去重复的数据,只保留更改过的数据,节省磁盘空间,从而节约成本,延长数据保留的时间。
下面是对各厂商重复数据删除的简单介绍:
飞康:
飞康的重复数据删除存储软件名为“Single Instance Repository(SIR)”。SIR提供一个基于策略的冗余数据删除(RDE)引擎,只存储数据文件或数据块的单一实例(single instance)。
SEPATON:
SEPATON 的DeltaStor技术使用 delta 冗余删除技术,使用这种技术,DeltaStor 软件可以搜索任意数量的数据对象版本,以找出重复的数据序列,然后用一个副本的指针替代重复数据,重复数据序列中只有一个实例真正存储在磁盘上。SEPATON 称DeltaStor可以以 25:1 的比例消除典型混合业务数据中的重复数据,对于某些电子邮件应用则可以达到 60:1。
Data Domain:
Data Domain的重复数据删除技术称作容量优化存储(Capacity Optimized Storage, COS)技术。COS是采用一种压缩算法,任何重复的数据或是重复的模式在进行多次备份时,只对其进行一次备份。这样可以较好提高备份速率和数据压缩比。Data Domain称可以实现近乎20:1的压缩比。目前,Data Domain已经推出了三代DDX阵列。
EMC:
EMC称Avamar重复数据消除和全局单实例存储 (SIS) 技术可确保备份数据段在全局范围内仅存储一次,还可以有效地将移动和恢复的数据量缩减300倍,同时还可以实现每日完整备份和快速恢复。
Diligent Technologies:
Diligent的 ProtecTier技术将数据分成块,并且采用自有的算法决定给定的数据块是否与其它的相似。然后与相似块中的数据进行逐字节的比较,以判断该数据块是否已经被备份。HDS的虚拟磁带库解决方案采用的就是Diligent的ProtecTIER VT with HyperFactor重复数据删除技术,HDS声称VTL 解决方案在保证100%数据完整性的同时消除了冗余数据,从根本上将物理存储需求降至原来的二十五分之一甚至更低。
昆腾:
昆腾的数据重复删除技术是由澳大利亚开发的。数据重复删除技术按自然边界把数据拆分为非常细粒度的子块元素。昆腾称,利用数据重复删除技术,1TB的备份数据可根据备份数据的共性,存储为300-700GB不等。在这种情形下,每月实现10:1到50:1的备份比率是完全可能的。
ExaGrid Systems:
ExaGrid Systems的InfiniteFiler就是一个基于内容识别的重复删除设备,当备份数据时,它采用CommVault Galaxy 和Symantec Backup Exec等通用的备份应用技术从源系统中识别文件。完成备份后,它找出已经被多次备份的文件,生成增量文件(deltas)。多个 InfiniteFilers合成一个网格,支持高达30TB的备份数据。
赛门铁克:
赛门铁克NetBackup PureDisk远程办公室备份软件,具有全局单一实例存储的基于磁盘的安全数据保护将备份所消耗的存储和网络降低10倍到50倍。PureDisk能将备份的存储和网络消耗降低10至50倍。
一般来说,重复数据删除技术有两种实现方式,一种是将重复数据删除作为一个独立的备份软件,从原数据备份之初就开始进行优化并压缩,并且替代企业对传统备份软件的需求,这部分领地内,活跃的厂商包括:Avamar (现已被EMC收购), Asigra, 赛门铁克, Atempo和TimeSpring。另外一种就是将其作为某种功能嵌入到整体的备份软件或者解决方案中,如重复数据删除与虚拟带库的整合解决方案,这方面领先的厂商包括Diligent, Data Domain, Sepaton,飞康和昆腾。
重复数据删除技术从一出场就被冠以很多光环,比如“革命性的技术”、“十年来出现的最重要的数据保护技术之一”、甚至被称为是“改写存储行业的经济规则的技术”等等。不可否认,重复数据删除技术具有独特的优势,它可以大幅压缩和删减用户需要备份的数据量,刚好可以应对数据爆炸式增长对存储的挑战。
但是,对于“乱花渐欲迷人眼”的市场, 用户要有一双明辨是非的“慧眼”,对纷至沓来的产品有清醒的认识,不要轻信厂商的吹捧。由于这项技术还远远不够成熟,实际操作的结果很可能达不到厂商所说的效果。为了证实这一点,记者不久前访问过一位存储工程师,这位工程师去年对一家公司的重复数据删除产品进行过测试,那家厂商号称压缩比率能达到20:1,但是测试后工程师发现,实际压缩比仅为4.7:1,差距甚为悬殊。
再者,在中国市场,很多公司才刚刚开始有了备份的概念,如果不是经常做备份,而且备份量不大的话,以现在动辄几百TB容量的阵列来看已经足够用了。对于那些需要每天备份,而且备份量特别大,急需减少备份数据量的大型企业数据中心来说,倒是可以尝试使用。
最后,还有一点值得注意,重复数据删除是一种特性或技术,而非独立的产品,首先应用于数据保护和保留领域,今后重复数据删除还将应用于其他存储领域。可以肯定的是,随着技术的日渐成熟,在未来几年,重复数据删除将得到广泛应用。