使用重复数据删除技术节约存储空间

本系列文章的第一部分我们介绍了什么时候应该使用重复数据删除技术,第二部分我们继续介绍如何使用重复数据删除技术节约存储空间。

在主存储上应用的特殊要求

因此,虽然后处理重复数据删除有它的优势,但其需要抛开所谓的着陆区——在数据去重前需要额外的空间写入数据。“要使用后处理技术,就必须配置满足正常使用所需的磁盘空间,” Russell说。这样可能与使用数据去重有所相悖,尤其是面对高价位的存储容量,特别是闪存时。

这并不奇怪,主要存储供应商,特别是全闪存阵列产商,一直都是推动在线重复数据删除的第一集团军。

对在线重复数据的支持正逐渐成为全闪存和混合闪存阵列市场的入门指南。所以考虑每GB闪存成本是十分有意义的,Storage Switzerland的Crump说。“如果硬盘驱动器的成本低于1美元/GB,那么数据去重技术的价值相对较低,” Crump说,“但是,闪存成本在8-9美元/GB,远高出重复数据删除5到10倍,这时候数据去重相当有意义。”

重复数据删除的相关数据

<5%:目前市面支持在线数据去重的磁盘阵列份额

75%:预测未来三年市面上将支持数据去重和压缩的磁盘阵列份额

6:1:重复数据删除的平均比例

40:1:重复数据删除在VDI和文本文件环境下的删除率

10:1:处理图片去重是的删除率

$ 1:普通硬盘的每GB成本

$8~$9:闪存驱动器的每GB成本

新一代提供在线重复数据删除闪存阵列的厂商被Crump称做“ankle-biters”,紧跟在第一级存储供应商的后面。它们包括Pure Storage、Nimble和Tegile等等。

目前还不支持在线数据去重的闪存供应商也很快采纳此功能。 同时,Violin Memory预计今年晚些时候在其Concerto 7000全闪存阵列中提供在线数据去重与压缩功能。

重复数据删除技术不仅能够更好地利用昂贵的闪存资源,而且也比较容易实现。与大多数存储供应商相比,“数据去重技术在闪存上的表现更好,因为每秒的输入/输出操作对闪存来说几乎无须任何代价,”超级融合基础设施提供商SimpliVity公司的产品战略副总裁Jesse St. Laurent说。

SimpliVity基于其产品定制的嵌入式芯片提供重复数据删除与压缩技术。City of Arvada, Colo.是SimpliVity的一名用户, CIO Ron Czarnecki表示其存储效率率为13.5:1,而性能和Cisco UCS服务器或Dell Compellent存储不相仲伯,甚至还更好。

最后的前线

传统存储供应商已经开始添加在线数据去重功能。NetAPP于2007年针对其FAS阵列推出了在线数据删除ASIS标准。尽管如此,NetAPP阵列的主存储数据删除附带非常重要的注意事项,Taneja说,使用在线去重“将严重降低存储性能到最低点” ,而且只支持后处理模式。NetAPP的16位数据去重算法同样“没有办法达到非常低的碰撞概率,”同样还是可能出现两个不同组块出现相同哈希值的情况。

NetApp的竞争者正迎头赶上。EMC在其VNX系列产品上提供块数据去重,并在其Isilon横向扩展存储提供后处理去重功能。Dell Compellent与EqualLogic阵列都支持主存储去重功能,同样还有HP 3PAR StoreServ 阵列。 Hitachi Data Systems的网络访问服务器(NAS)和Permabit设备制造商的统一存储阵列都支持去重功能,IBM在其Storwize阵列与SAN卷组控制器上都提供了去重功能。

但是这些产品并没令人满意,无法让数据去重技术去支持现有的存储阵列。Gartner的Russell说。理论上,推广这项技术可以延长已经在用的存储的服务周期,他说。“有人会倘然接受”,这取决于他们如何开放这项新技术。

Permabit的新款SANblox,是基于Albireo Index Engine技术的在线数据删除设备,可以配置在用户的传统光纤SAN阵列前。SANblox为需要在线数据去重功能的传统存储阵列带来了新的选项。

SANblox为第一级存储阵列用户提供了一种在现有存储设备上实现在线数据去重的快速方法,Storage Switzerland的Crump说。

“有趣的是,闪存产商正在从这些传统存储大户手里争抢市场份额。要解决这个问题,只靠赠送存储是远远不够的,”他说。

不仅如此,Intel芯片也即将在软件中提供在线数据去重所需的马力,Taneja预测,而且无须专有的设备或芯片。

“下阶段,Intel芯片不仅有足够的能力支持数据去重,” Taneja说,而且其还将“集成在每个主存储阵列与融合系统中的功能。”换句话说,“从现在开始的三年后,我们就不需要再讨论这个问题了。”