体验重复数据删除: 提高效率并降低容量要求

   积习难改
  
   多年来,我们一直深陷数据保护惯例。我们按照所知的唯一方式进行备份:夜夜不停地利用磁带备份。至于数据恢复,我们只能祈求永远不要让我们恢复数据。毕竟,系统崩溃或其他类型的数据丢失所需的恢复具有不确定性,可能需要几天、几周甚至更久才能完成。宕机不仅给基于磁带的备份恢复带来潜在风险,更带来日常顾虑??可能对业务造成潜在破坏。对于现在仍坚持只用磁带备份的广大用户来讲,这些风险依然存在。
  
    但这只是在ATA/SATA磁盘出现之前,更重要的,是在重复数据删除技术出现前才会有的顾虑。随着ATA/SATA磁盘成为备份目标,数据保护似乎一夜间变得更好了。备份速度大幅度改进,恢复性能也大幅改善。人们首次从恢复角度而不仅仅是备份方面考虑数据保护。恢复时间目标(RTOs)和恢复点目标(RPOs)变得更具挑战性。
  
    现在,基于盘的数据保护方案例如虚拟磁带库(VTLs)被不同类型、规模的公司机构广泛采用,ESG预计其采用量在未来12-24个月内会继续增长。事实上,最近一份ESG研究调查1显示,被调查者中32%的人已经使用VTL作为备份操作,另外32%的人计划在两年内执行这种技术。(图1)



    然而,当备份到VTL或其他基于磁盘的备份目标已经大大改善了我们满足甚至超出备份和恢复目标能力的同时,我们还面临着ESG称之为“容量膨胀”的问题。将此现象归咎于不断增加的数据量、要求将更多数据在线保留更长时间的法规或企业管理规定、更具挑战性的SLA或缩小的备份窗口,都是不重要的。事实是,我们所备份的数据越来越多,却没有找到很有效的方式??直至重复数据删除技术的出现。
  
    走进重复数据删除
  
    ESG认为,重复数据删除技术是这十年来出现的最重要的数据保护技术之一。原因是因为重复数据删除技术为数据保护领域带来革命性突破,使磁盘备份、远程备份和复制效率更高。实际上,ESG预测,由于重复数据删除技术能够提升方案价值,将带动对包含VTL在内的基于磁盘备份方案的市场关注度及部署。
  
    ESG 调查发现,成本问题一直是阻碍部署基于磁盘备份方案的首要因素。而重复数据删除技术降低了后端磁盘容量需求,从而降低了相关磁盘成本(参见图2)。



    随着许多新技术的出现,市场上对重复数据删除技术的理解有些混淆。事实上,最近的一份ESG调查2表明,不同规模的公司机构和行业对重复数据删除有着浓厚的兴趣和相当的了解。ESG认为在采用曲线上,早期对重复数据删除的浓厚兴趣表明在市场上对其概念的混淆(什么构成了重复数据删除)或者表明重复数据删除具有强大的吸引力,将其与出现的其他技术区别开来,使其打破典型技术采用曲线规则。重复数据删除技术是显而易见的,不依赖于应变量而被广泛采用。ESG同时预测重复数据删除技术将在明年及后年被广泛采用。
  
    在后面内容中,我们将全面讲述重复数据删除技术,并回答以下问题:
  • 什么是重复数据删除?在数据保护计划中处于何位?
  • 重复数据删除和其他备份方法或技术有那些不同?
  • 重复数据删除有哪些优势?
  • 怎样执行重复数据删除?
  
    最后,我们将讲述昆腾DXi系列磁盘备份和复制设备,昆腾的重复数据删除方式以及其可能为您的数据保护环境所带来的好处。
  
    定义重复数据删除
  
    先看一个简单的定义。ESG将重复数据删除定义为删除或擦去冗余文件、字节或数据块的流程,确保只有“独有”的数据存储在磁盘上。重复数据删除也是ESG所谓的容量优化保护技术(COP)的一个例证。COP技术用于减少数据保护相关的容量需求。
  
    重复数据删除拥有许多潜在优势,最独到的一点则是,重复数据删除通过有效减少后端容量需求,正面解决了“容量膨胀”问题。图3给出了相关图释说明。
  



    在此图中,重复数据用多个相同颜色的盒子来表示。然而重复数据删除粒度或效率(能够检测多少重复数据)会根据应用或数据类型而变,底线是相同颜色方块(参见上面图释)有效减少。
   
    重复数据删除处理的粒度越多,容量减少的越大。总体来看,文件级的重复数据删除虽然有效,但其检测的重复数据要少于块级或字节级的重复数据删除;同样,块级重复数据删除在检测数据重复上比字节级的重复数据删除通常更有效。
  
    下面例子说明在粒度上的差别:某终端用户制作了1MB的PowerPoint演示文档,然后以邮件附件形式发给内部20个人审阅。在传统备份环境下(没有重复数据删除),虽然文件没有任何变化,但每个附件都会在每晚完全备份过程中被全部备份,耗费不必要的磁盘容量(20×1MB)。即使是小公司,考虑到磁盘物理容量、功率和冷却等情况,此冗余成本也颇为可观。
  
    然而,文件级重复数据删除只保存一份PowerPoint文档备份,所有其他附件(如重复的拷贝)都被“指针”替代,从而释放磁盘空间容量,并在客户需要的情况下延长保留时长。
  
    更多粒度的重复删除方法,块级和字节级重复数据删除技术将此流程推进一步。这些方法查看构成新1MB文件的每个片段,与重复数据删除系统先前遇到的元素相比较,在新文件中用指针替代重复元素,而不用重新存储。(不同厂商在处理流程上有所不同。在有些情况下,产品的性能可能受到不同的比较元素方式、在磁盘上执行写入和管理的影响)
  
    除了重复数据删除流程粒度之外,还有其他因素也会影响重复数据删除比率。例如,生成的数据类型(有些数据本身即更易于复制)、数据变化频率等都影响重复数据删除比率。ESG实验室测试过几种重复数据删除技术,并认为不考虑重复数据删除流程粒度,10-20倍的容量缩减是现实的。
  
    还有一点值得注意,重复数据删除是一种特性或技术,而非独立的产品,首先应用于数据保护和保留领域。然而ESG预测,随着时间推移,重复数据删除还将应用于其他存储领域。
  
    将重复数据删除技术应用到传统备份
  
    将重复数据删除应用到传统备份方式中(完整备份、增量备份、差异备份)有着深远的积极意义,能够有效减少需要备份的数据量,如图4所示。



    让我们更进一步了解下面的备份方法:完全备份、增量备份、差异备份以及EGS所指的重复数据删除备份。
  
    • 完全备份:通常规律进行(如每天、每周,等),包括公司数据的全部备份或映像。完整备份不区别“变化”的数据或“独有”数据,随每次备份复制全部数据。然而,完全备份的数据恢复通常比其他备份方法更简捷,用时少。
  
    • 增量备份:与完全备份不同,增量备份仅复制上一次完全或增量备份后发生变化的文件。增量备份的主要优势是减少了每天备份文件的数量(与完全备份相比),允许更短的备份窗口。然而,在恢复数据过程中,由于需要恢复上一次完全备份和所有后续增量映像或副本,因此用时明显较长。
  
    • 差异备份:备份上一次“完全”备份后被修改的“全部”数据。差异备份与增量备份的不同之处在于,增量备份只针对上一次完全备份或增量备份后被修改的数据。发生变化的文件在下一次完全备份前,每天都将执行备份。很显然,差异备份的劣势在于,随着文件的改变,备份量在一周内不断增加,直至下一次的每周完全备份。然而,在恢复方面,差异备份只需恢复完全备份和最近差异备份的映像,从而获得比增量备份更快的恢复时间(视恢复时间的不同而不同)。
  
    • 重复数据删除备份:通过将重复数据删除技术应用到三种传统备份方法中,用户可有效减少需要备份的非独有数据量。完全备份、增量备份和差异备份不会执行“独有性”扫描。实际的重复数据删除率取决于多个变量(如上述),但一般会在10-20倍之间。
  
    重复数据删除优势
  
    对用户来说,重复数据删除技术拥有多项重要和直接的优势。首先,它可以有效减少备份容量需求,从而从多方面实现成本节约。它释放了备份数据的容量,实现更长的数据保留,改善RTO和可靠性,使基于WAN的远程备份和复制更高效。具体来说:
  
    • 减少备份容量需求带来成本节约。各个公司机构的实际容量缩减幅度各不相同,取决于需要备份的数据类型、数据变化率和备份频率等因素。ESG实验室研究发现,容量缩减幅度一般保持在10-20倍。在这个幅度中实现的磁盘容量需求减缩将为用户带来强有力的成本节约,包括:更小的磁盘、更低的能耗和冷却成本。在1TB磁盘上存储20TB的备份数据能力更大大节省了磁盘成本。在当前数据保护环境下,对能耗和冷却成本的考量日渐重要,因此,在更少的磁盘上存储更多的备份数据(例如在1TB磁盘上存储20TB备份数据)将大幅降低能耗和冷却需求。
  
    • “释放”容量意味着以更少的介质管理,完成更多的备份数据,获取更长的数据保留时间。重复数据删除可以减少用于备份的物理磁盘量,重获的磁盘容量可应用于:1)在磁盘上备份其他数据;2) 延长磁盘上已备份数据的保留期。底线:重复数据删除技术使磁盘被用作备份更多数据;而更重要的是,磁盘上的数据可以保留更长的时间。这将为用户带来巨大利益。设想一下,你可以不依靠磁带,就顺利恢复3-6个月(甚至更长时间)以前的数据。如果没有重复数据删除技术,这样做花费会很大;而利用重复数据删除技术,这样做将不仅可行,而且经济高效。磁带将被用来进行数据的长期归档,以便应对罕见的灾难数据恢复所需。
  
    • 重复数据删除改善恢复时间目标(RTO)和可靠性。用户备份到磁盘的数据越多,就越能满足RTO需求,进而满足数据保护服务等级协定(SLA)。重复数据删除技术使客户在磁盘上备份更多的数据,保留更长的时间,从而提高RTO。实际上,磁盘数据恢复的速度远高于磁带。至于可靠性,数据在磁盘上能够保存更长的时间,因此用户很少再依赖磁带进行数据恢复。
  
    • 支持并扩展基于WAN的备份数据远程复制选项。重复数据删除技术优势在于其能够减少备份数据量。由于通过WAN的物理数据量减少(参见图5),重复数据删除技术为各大企业减少了了进入基于WAN的远程复制“成本”或“带宽”,使一些公司可以首次实现基于WAN的远程复制;而另一些公司则可以为其远程数据(包括先前未受保护的远程数据)部署更宽的数据保护网络。




    执行重复数据删除
  
    执行重复数据删除的方式有多种??即可通过软件,也可利用硬件设备。就重复数据删除流程的源头??即重复数据删除所真正执行的地点??来说,则是通过在线或离线执行:
  
    • 在线:重复数据删除在主机端通过备份应用或数据路径中的某一设备完成。
  
    • 离线,或事后处理流程:备份工作完成后,通过系统或备份路径外的设备完成重复数据删除。
  
    两种方法对于消除重复数据都非常有效,ESG实验室测试更证实其将带来巨大效益。但是任何一项技术都会有所牺牲,对重复数据删除技术而言,则是性能和容量。在数据路径内执行重复数据删除会影响性能;而离线执行该流程还将影响容量,因为容量最初是分配给备份流程的(在重复删除过程结束后才释放容量)。
  
  . 判断最适合你环境的方案需要进行全面的容量/性能平衡分析。如果性能是关键性要素,那么最好采取离线方式;但如果期望在整个过程中获取最佳磁盘容量节省,那么在线方式可能更好。当然,在线和离线只是评估重复数据删除技术要考量的因素之一。如前所述,技术也会随着重复删除执行的程度或粒度等级而有所区别。当评估现有技术时,上述所有方面都是重要的考量因素。
  
    注意到每种方法在性能、容量、成本方面的利弊很重要。ESG认为,重复数据删除的优势??特别是潜在的磁盘成本节约??具备足够的重要性,保证了该项技术在业界的广泛采用。
  
    结论
   
    由于不断增加的数据量和更具挑战的商业SLA协议,用户所面对的问题日益严峻:一方面,他们需要更长期地在磁盘中在线保留更多备份数据以满足恢复目标;另一方面,他们也需要控制数据保护相关预算。如果没有重复数据删除这样的技术(该技术使基于磁盘的数据保护更高效),企业会发现,为了最小化系统宕机造成的负面业务影响(例如应用程序宕机、用户不满、数据丢失、直接收入损失,等),他们将面临不断增加的存储容量和/或WAN带宽相关成本的问题;也有可能面临风险,并限制实际备份到基于磁盘系统(如VTL)中的数据。
  
    重复数据删除有效地改善了基于磁盘数据保护的成本效益,使效率等级高于没有此项技术的情形,消除了困扰当今数据中心的问题。现在,公司可以可靠、快速地恢复数据、备份远程办公室数据,并最小化磁带备份。正因为此,重复数据删除技术才称得上是业界非常重要的技术。