存储分析 开源重复数据删除技术崭露头角

就在几年时间里,重复数据删除从一个新生的而且只有非常大型的企业才能担负得起的技术变成一个几乎大部分备份和恢复解决方案都配置的技术。

重复数据删除已经变得如此重要以至于数据存储厂商纷纷花费数百万美元–甚至数十亿美元–来收购重复数据删除技术。去年夏天,EMC以20亿美元的价格收购Data Domain。

现在我们看到重复数据删除正在掀起另一股发展浪潮:开源重复数据删除。几家老牌的开源存储厂商(Bacula、Nexenta、Sun/Oracle和Zmanda)以及一些新厂商(比如Opendedup)开始挑战专有的解决方案并推出自己的技术。

Opendedup

今年三月,Opendedup,一个新的开源重复数据删除解决方案,甫推出便成为各大新闻的头条。作为针对Linux的重复数据删除文件系统(也成为SDFS),Opendedup从设计上来说针对的是那些拥有虚拟环境并寻求高性能、可扩展和低成本重复数据删除解决方案的企业。

根据开发者Sam Silverberg的说法,"SDFS的设计目标是利用基于对象的文件系统的性能和可扩展性优点,通过重复数据删除优化存储。"结果是:"Opendedup/SDFS可以优化1PB以上的数据;在128K块大小的情况下,每GB记忆体支持3TB以上数据;在线重复数据删除的执行速度达到290MB/秒;拥有很高的总I/O性能;支持VMware(以及Xen和KVM),并可以对4K的块进行重复数据删除操作。同时,它还是免费的。

Silverberg表示,在标准的Linux系统上,Opendedup/SDFS的安装只需要大约20分钟时间,而且不需要编译。他表示:"SDFS卷可以像Linux文件系统那样载入和创建。如果用户曾经在Linux系统上载过卷,那么他肯定对SDFS的命令也很熟悉。"此外,对那些需要一些帮助的用户,SDFS还有一个快速开始指导,同时在Opendedup网站上还有详细的管理操作指导。那么,使用Linux系统的用户是否可以使用Opendedup并从中获益呢?

根据Silverberg的说法,SDFS的适用对象包括:所有大量利用虚拟化的组织("SDFS可以跨共享的SDFS卷或在单独的SDFS卷上对数百个虚拟机进行重复数据删除…….而且可以加速新的虚拟机并快速复制现有的虚拟机"),或那些寻求高存储效率和基于磁盘备份系统的组织("SDFS卷可以呈现给基于磁盘的备份,并带来存储节约和I/O提升的好处"),或那些需要归档大量数据的组织("SDFS卷可以当作NAS(网络附加存储)共享……同时非结构化数据可以复制并归档到作为第三层存储的SDFS卷")。

不过,Opendedup/SDFS真的可以作为专有解决方案的替代品么?

Silverberg表示:"同许多专有解决方案相比,SDFS在性能、可扩展性和成本上具有优势,不过我认为专有解决方案有一定的真正的技术上的优势。开源解决方案目前还不能提供远程复制功能、基于来源端的重复数据删除和一周七天一天24小时的无间断的电话支持。"

Silverberg表示,SDFS是一个文件系统,"这使得它可以很容易作为一个存储设备来实施",不过"如果不契合到专有API(应用程序编程接口),它更难深入地整合到备份和虚拟机管理器等解决方案"。

不过,他补充道:"如果用户希望获得的是来自文件系统的裸性能、可扩展性和重复数据删除功能,那么SDFS是个理想选择。"显然很多企业是这样的,因为就在第一周,Opendedup.org就吸引了1.4万个独立访客的访问,其中许多人下载了软件。

Bacula

开源网络备份和恢复软件厂商Bacula Systems也进入了开源重复数据删除领域。

Bacula.org网站创始人兼Bacula Systems首席技术官Kern Sibbald表示:"在大部分企业,存储使用量正在飞快地增加,一些企业的年增长速度达到40%。为了保证这些新增的存储得到备份,我们需要让备份程序更快和更有效率。"达到这个目标的一个方法就是引入重复数据删除。

他表示:"通过Bacula[5.0.0版本],我们可以让用户选择哪些文件可以进行重复数据删除。这是我们进入重复数据删除领域的第一步,这是文件层次的重复数据删除而不是块层次的重复数据删除。"

Sibbald指出一些存储分析师将Bacula的重复数据删除解决方案比作SIS(单实例存储),不过Bacula认为它应该是文件层次的重复数据删除。

他表示:"我们的优势是我们的解决方案同其他重复数据删除技术相比实施更简单,而且它在磁带和磁盘上的表现同样好且非常高效。此外,同块层次或比特层次重复数据删除技术相比,在数据恢复过程中,我们的解决方案不会带来多少资源开销。"

Sibbald承认Bacula已经在试验块和滑块重复数据删除技术,并且很有可能在未来的软件发布中加入这个技术。

至于Bacula 5.0.0,Sibbald表示市场反响很好。他表示:"在发布后几天时间内,下载量就已经非常大。"不过这次发布也包含了一些其他新的功能,而他也没法说这种市场反响有多少应归功于重复数据删除技术的加入。

Zmanda

以Amanda开源备份和恢复软件为核心的Zmanda也可能开始在软件中加入重复数据删除技术。

Zmanda首席执行官Chander Kant表示:"我们同时追求来源端[在备份客户端上]重复数据删除和目标端[在存储媒介上]重复数据删除。"他指出Amanda已经在测试和认证几个目标端的重复数据删除技术,包括EMC的Data Domain和Oracle/Sun的ZFS。

他表示:"重复数据删除可以为Zmanda客户节约大量系统资源。我们的压缩比率很高。"此外,重复数据删除对终端用户来说是透明的。

Kant表示,和Opendedup/Bacula一样,市场对Amanda加入目标端开源重复数据删除技术的反应是积极的。他认为有更多企业,尤其是中小型公司,将采用开源重复数据删除解决方案,因为这种解决方案"一方面可以节约存储成本,一方面又可有效利用有限的IT预算"。

Nexenta

至于开源存储解决方案厂商Nexenta Systems,该公司在今年三月底发布的最新版本的NexentaStor 3.0存储解决方案上加入了基于ZFS的在线重复数据删除技术。Nexenta表示不仅NexentaStor 3.0是第一个为主存储提供在线重复数据删除功能的存储解决方案,而且像ZFS这样的开源解决方案从技术来上来说也比专有解决方案更高级。

Nexenta Systems首席执行官Evan Powell表示:"ZFS在线重复数据删除功能非常强大,我们认为它是市场上最好的重复数据删除技术。"

在被问到NexentaStor面对竞争表现如何的时候,Nexenta表示同使用专有解决方案相比,使用NexentaStor的用户一般都获得了75%的成本节约。这主要是因为通过高比率压缩获得了更高的存储效率。

NexentaStor的目标市场是那些拥有大型虚拟环境(比如微软Hyper-V、Citrix Xen和VMware)的企业,包括托管和云服务提供商,以及拥有虚拟桌面环境的研发组织和企业。

开源在标准化上更有利

抛开厂商的豪言壮语不谈,开源重复数据删除解决方案真的和专有解决方案一样好或一样可靠和可扩展吗?

Bacula的Sibbald表示:"专有解决方案不仅贵,而且还不能获得源码,因此不好检验或比较它们的性能。从专有厂商提供的重复数据删除统计数据和开源项目提供的统计数据来看,我认为开源解决方案绝对可以和专有解决方案一较长短。"

Zmanda的Kant表示:"随着时间推移,重复数据删除将成为标准技术。就像我们现在有标准的压缩算法一样,重复数据删除也将有标准算法和标准格式。开源对标准化有利。因此未来属于开源重复数据删除。"