存储分析:重复数据删除步入主流行业

重复数据删除技术不仅降低了存储空间的需求,同时降低了数据中心能源成本。随着产品技术进一步市场化,普遍拥有备份和恢复解决方案的用户都配置了该技术。

在云时代,海量数据增速远远超过了用户的想象。显然,企业和消费者新建或复制的数据文件数量开始泛滥。2011年至未来,专业人士预测数据每年必然保持在40%~60%增速。由此,重复数据删除技术作为IT领域的一项重大突破,开始在“云”时代突显其独特魅力。

眼下,大中型企业的文件存储容量的复合增长率逐年升高,用户对该技术的关注热度,远远超过其他新兴的存储技术;随着磁盘备份与重复数据删除技术的不断结合,该技术大大减少备份量并提升效率,从而成为客户IT系统解决方案中的重要配置技术。

◆ 技术布局为今朝

几年前,EMC收购Avamar、IBM收购Diligent;2009年,EMC与NetApp竞购Data Domain,最终EMC花了21亿美元取胜。主流存储厂商都在为重复数据删除技术应用的辉煌今天,做了充分准备。他们将重复数据技术集成在其产品方案中,目的为了帮助大行业用户减少后台存储及源端数据空间占有量。

据了解,Avamar软件在数据源进行重复数据删除而不是在数据发送到备份设备后进行重复数据删除。在Avamar模式中,代理软件运行在物理或虚拟服务器上,并对数据进行重复数据删除,然后才将数据发送到中央的Avamar目录。这种模式适合于远程办公室/分支办公室(ROBO)和数据中心类型的组织,并且重复数据删除工作是在整个组织的全局范围内进行的;Data Domain全局重复数据删除阵列是基于新的Data Domain架构多控制器扩展,为存储在双控制器系统中的数据提供线内全局重复数据删除和全局命名空间。其空间足以容纳重要数据中心备份整合。但其动态负载,单一重复数据删除存储池及命名空间与备份软件的紧密集成使全局重复数据删除阵列操作更简便。IBM公司在整体的重复数据删除解决方案上,有着长远全面的发展战略,其包括,目标端除重的ProtecTIER实时删重虚拟磁带库、源端实时删重的TSM备份软件、StorWise的实时压缩算法、N Serious的后处理文件系统除重等等,在存储领域提供了全面的重复数据删除的解决方案。其中IBM的ProtecTIER解决方案是IBM在Storage Platform的重复数据删除领域发展的重点。

显然,以EMC为首的存储厂商在重复数据技术上布局可谓煞费苦心。经过几年的苦心经营,如今该市场已然等来花开时节。据记者调查,越来越多的大行业用户表示,他们在采用重复数据删除技术来提高虚拟服务器使用率以及性能。比如,在2011年,有不到一半的企业决策人表示他们会计划部署重复数据删除;另一部分人表示会部署基于虚拟机层面的或者基于存储设备层面的Thin Provision提供;还有极少数的人表示他们会考虑在主存储系统中部署数据压缩。

◆ 主流需求重效率

可以说,现在企业用户的IT系统,一般来说,每天会做一个增量备份,每周会做一个全备份。检视这些备份数据,他们出现大量数据重复,重复数据使数据量呈几何数增长。

让数据在可用性、可管理性及安全性方面得到更高保障,使用户IT系统的使用效率得以进一步提升,这正是重复数据删除技术应用在今天步入主流行列的原因。之前,电信公司、互联网服务提供商和大型企业是重复数据删除技术的主要客户。随着产品技术进一步市场化,普遍拥有备份和恢复解决方案的用户都配置了该技术。

“重复数据删除常常被视为复杂的保护和恢复挑战的Quick Fix,而这些挑战则是由于快速数据增长、不断萎缩的操作窗口及非常苛刻的恢复SLA(服务等级协议)引起的。”CommVault公司高级技术经理宋刚勇分析说,“管理员们发现,他们已经无法减少备份次数而且恢复的性能受到了非常大的影响。真正改进需要的方法不是后期的弥补,应该在前期,是数据管理解决方案不可或缺的组成部分。”

我们可以看到,当前用户普遍表示,由于业务数据的快速增长,使得其IT系统在性能和可扩展性方面长期存在问题。对于大型IT系统,往往有大量的数据没有按照公司的策略而被定期的删除,这通常是因为在清除的时候忽略了多个镜像的备份副本。所有的额外副本占用数字磁盘和磁带的宝贵空间,久而久之,企业将为此付出高昂的成本。

NetApp公司大中华区总经理陈文俊分析认为,重复数据删除技术能最大发挥功用的应用环境包括有数据备份、邮件文件归档和主节点的数据(尤其是共享文件的数据)三大方面,

陈文俊介绍说,在他们的客户中,某家是做天然气开采,该客户有大量数据保存于磁盘,需要做实时分析,其用于诸如在什么地方可能打井开矿方面的预测分析。

“这个客户的数据删除率虽然没有备份方面高但也不低。设想相对使用成本昂贵的磁盘,其实可以节省40%的空间,这个投资回报率是比较高的。”陈说。

据介绍,NetApp重复数据删除技术跟其他公司有大的不同,其重复数据删除技术超越了单纯的数据备份,还包括归档、主数据的复制、一些虚拟化环境的应用;另一优势是不管数据如何写入卷,其可以使用任何 NetApp 精灵卷,并可方便地确定和清除该卷内重复块。

◆ 业务应用日益升级

目前,重复数据删除的产品很多,有源端除重、目标端除重、实时压缩等等。可以说哪里有大量的重复数据,重复数据删除技术就能在哪呈现出最大的利益回报,最显见的应用领域则是在企业级备份领域。

谈到市场趋势时,某业内人士介绍说:“用户更愿意做全备份,加入重删,在这种策略下,非常有效率里,这是最早利用的领域。跳出备份的圈子,在存储如NAS方面,重删技术更加受重视。”

其实,重删并不是万能,如经过压缩的音频视频文件并不适合。只有在备份在主存储中有大量重复的文件系统中,用户偏重于采用该技术。

在赛门铁克北方区资深系统工程师陈震宇所接触的用户中,99%有文件服务器或者网站的用户,都在使用重复数据删除技术。

陈说:“我碰到很多的用户出现过这样的问题,他们可能购买了一些产品,他从来没有考虑过恢复速度,老是在追求压缩比,等出现问题的时候,发现数据恢复起来太慢了。现在用户开始把重复数据删除固化到芯片,这样可提高算法的速度,由此将推动重复数据删除的技术应用更加普遍。”

专业人士分析,重复数据删除技术将朝着新的方向继续发展。其中就有实时的的要求,要求在写入过程中直接完成消除重复数据;还有对一致性要求,厂商会尝试各种新技术尽量降低出现Hash冲突的机会;另外就是通用性,要求在同一个重复数据删除的设备中实现归档和数据备份,以及数据的异地容灾,提供多用途的接口能力;同时要求重复数据删除的处理能力更加强大。

未来,重复数据删除将逐渐成为各个厂商的内嵌标准技术,使得各种系统都可以应用到重复数据删除来降低整体的拥有成本,以提高系统使用效率。例如,赛门铁克的重复数据删除本身是融在其整体的备份解决方案中。对用户来说,可以利用原有软件,将重复数据删除的技术嵌入其中,可直接降低用户的投入成本。

用户选择重复数据删除产品参考指标:

● 具备企业持续的、全局的重复数据删除处理能力,以保障企业IT系统数据

● 考虑全面的解决方案的部署需求,包括有诸如企业级D2D的备份支持能力及可用于远程复制容灾的互兼容功能

● 有持续技术的研发实力,使用户后续有足够的技术支持以及未来在系统升级、数据移植方面有足够的服务能力

● 面对数据中心级别的重复数据删除,是否具备提供包括无单点故障、除重处理能力、可扩充容量方面的企业级的重复数据删除解决方案能力