概要
本白皮书提供了关于重复数据删除技术的补充信息,该技术由惠普最新存储解决方案的提供支持。在数据保护领域,重复数据删除是一个热门话题,因此也就成了HP Data Protector软件的相关话题。
解决方案描述
HP Data Protector软件是一款备份和灾难恢复产品,可为不断增加的关键业务数据提供可靠的数据保护和高可用性。HP Data Protector网络组件概念提供了量身定制的备份和恢复解决方案,涵盖了从单一系统到散布于多个站点的上万个系统。该软件完全支持惠普重复数据删除技术,允许用户更快地恢复文件,同时降低数据管理和存储成本。重复数据删除技术能够将您的存储效率提高50倍,高达5000%!您可以使用因此节省下来的容量来支持更多的备份数据在线,并且准备好在短时间内执行恢复操作。总之,重复数据删除技术所带来的存储效率上的提升可以使您获得事半功倍的效果。
什么是重复数据删除?
重复数据删除是指设备或软件将正在写入备份设备的数据块与该备份设备上之前存储的数据块进行比较的能力。如发现重复数据,则会建立一个指向最初数据的指针,而不是存储重复的数据集。这就消除了冗余数据块,即重复数据删除。重复数据删除在数据块或数据体级别上(而非文件级)执行。
这就极大地减少了存储数据量。
重复数据删除技术通常与其他形式的数据简缩技术(如传统的数据压缩技术)并用,以便进一步减少存储数据量。
更适当的重复数据删除方法取决于企业的规模和备份需求。
- 面向企业的重复数据删除:对于企业客户来说,对象级区分或加速重复数据删除是一个不错的选择,因为它强调的是性能和可扩展性。对象级区分在数据写入磁盘之后删除重复数据,能够提供更快的恢复速度和可行备份速度。用户只需添加额外的节点,即可进行纵向扩展,以提高性能。
- 面向中等规模企业和远程企业站点的重复数据删除:对于中小规模企业或拥有远程站点的大型企业来说,基于哈希的数据分块或动态重复数据删除是一个不错的选择,因为它强调的是兼容性和成本。基于哈希的数据分块能够在独立于格式的解决方案中提供低成本和占用空间小的优势。
您可在惠普白皮书《了解惠普重复数据删除战略》中获得关于重复数据删除技术的详细介绍:http://h71028.www7.hp.com/ERC/downloads/4AA1-9796ENW.pdf
图1显示了主要的重复数据删除概念。
图1:重复数据删除概念
原始数据
新版本
执行重复数据删除操作之后
重复数据删除的优势
使用重复数据删除技术有诸多优势。最大的好处是增加有效容量,用于存储备份数据。这能够实现备份数据在磁盘上更长的保留期,从而实现更快的数据恢复速度和更高的服务水平协议。惠普基于磁盘的备份系统内置了重复数据删除功能,还能够减少不断增加的受保护数据量所需的存储空间和电力需求。
如欲了解关于重复数据删除优势的更多信息,请阅读惠普白皮书《惠普动态重复数据删除 – 实现50倍的提升》:http://h71028.www7.hp.com/ERC/downloads/4AA2-0212ENW.pdf
关于对象级区分的详细信息
对象级区分(加速重复数据删除)提供了出色性能,因为对备份数据的重复数据删除操作是一个在备份操作之后执行的流程。这也是备份设备(虚拟磁带库)必须了解备份格式和数据类型,才能识别元数据的原因。惠普加速重复数据删除技术在发布之时即可支持HP Data Protector 6.0软件和特定的数据类型。
惠普加速重复数据删除最初支持的数据类型包括:
- 文件系统备份
- 原始磁盘
- Microsoft Exchange
随着时间的推移,更多的数据类型和未来的Data Protector软件版本将会被添加到支持矩阵中。
您可在以下网址找到"HP StorageWorks企业备份解决方案(EBS)硬件/软件兼容性矩阵":http://www.hp.com/go/ebs。
重复数据删除技术到底能够节省多少空间?
影响备份操作的重复数据删除率的两个主要因素是:
- 数据保留时间
- 数据在两次备份操作之间的变化程度
示例:500GB文件服务器备份
数据保留策略数据参数
- 1周,每日增量备份(5次)
- 6个月,每周完全备份(25次)
- 每日变化率 = 1%(10%文件中数据的10%)
- 无压缩
图2:磁盘空间要求
按一般方式存储的数据采用重复数据删除技术存储的数据
第1次每日完全备份500GB500GB
第1次每日增量备份50GB5GB
第2次每日增量备份50GB5GB
第3次每日增量备份50GB5GB
第4次每日增量备份50GB5GB
第5次每日增量备份50GB5GB
第2次每周完全备份500GB25GB
第3次每周完全备份500GB25GB
第25次每周完全备份500GB25GB
合计12,750GB1,125GB
本示例使用了一个包含500GB备份数据的系统,相当于第一次传统完全备份需要500GB的存储空间。如果两次备份操作之间有10%的文件发生了变化,那么一次传统增量备份将向备份设备传送约为完全备份大小10%的数据量(约50GB)。然而,由于重复数据删除在数据块级别(而非文件级)上运行,事实上仅有1%的数据发生了变化。这意味着借助重复数据删除技术,仅发生了5GB的数据块级变化,或者说仅需存储5GB的数据。随着时间的推移,这种节省效应会成倍增长。当进行下一次完全备份存储时,就不需要传送500GB的数据了。如果使用重复数据删除技术,等效的完全备份操作仅传送25GB的数据。通常仅够存储一周传统备份数据的存储容量,可供启用了重复数据删除功能的备份系统使用六个月。在6个月的时间段内,重复数据删除技术将提供11:1的有效存储容量节省空间。重复数据删除技术还提供了无需从物理磁带提取数据,即可从更早的时间点恢复数据的能力。这里要记住的关键一点是:重复数据删除率主要取决于两个因素:
- 两次备份操作之间,发生变化的数据所占比例(数据所占比例除以文件所占比例)
- 存储在磁盘上的备份数据的保留时间
例如,如果10%文件中的数据每天发生0.5%的变化,那么相对于为期一年的每日完全备份来说,重复数据删除率为50:1。很显然,对于复杂系统(尤其是诸如Exchange、SQL和Oracle之类的应用程序)来说,很难预测每日变化率,因此,强烈建议用户使用基准化分析法。
正如我们已经指出的那样,备份数据保留期和备份数据变化率会影响到近似重复数据删除率的数值。图3显示了近似的空间节省情况(基于给出的每日变化率和备份策略)。
图3:重复数据删除率
备份策略
每日变化率每日完全备份和每周完全备份每日增量备份和每周完全备份
4个月*6个月1年4个月*6个月1年
0.50%31:137:150:125:131:146:1
1.00%24:127:132:119:123:129:1
2.00%16:117:118:113:115:117:1
* 4个月 = 5次每天备份 + 17次每周备份 比率 = 传送的数据量/存储的数据量
惠普重复数据删除产品组合战略
惠普为用户选择了两种重复数据删除技术:一种面向企业,另一种面向中小型企业和远程办事处。
- 加速重复数据删除技术,面向HP StorageWorks虚拟库系统提供,用于HP VLS6000/9000/12000
- 动态重复数据删除技术,内置于HP StorageWorks 磁盘到磁盘备份系统中,用于HP D2D2500和D2D4000
图4介绍了最新发布的入门级到企业级存储设备及其重复数据删除功能。
HP StorageWorks D2D2500和D2D4000备份系统采用了惠普动态重复数据删除技术。它们的存储空间范围是从2.25TB到7.5TB,定位于远程办事处或小型企业客户。D2D2500配有一个iSCSI接口,用以降低远程办事处的实施成本,而D2D4000则提供了iSCSI或4Gb光纤通道选择。
HP StorageWorks虚拟库系统采用了惠普加速重复数据删除技术,全部为连接了4Gb存储区域网的设备,本地用户容量范围是从4.4TB到万兆以上(配有VLS9000和VLS12000 EVA网关)。VLS6000、9000和12000机型提供了硬件压缩功能,从而实现了更高的容量。VLS9000和VLS12000采用了多节点的架构,支持用户以线性方式扩展性能。这些设备配有八个节点,能够以2:1的数据压缩率支持最高4800 MB/秒的吞吐量,前提是存储区域网主机能够以该速率提供数据。惠普虚拟库系统将部署惠普加速重复数据删除技术。
图4:HP StorageWorks基于磁盘的备份
采用了加速重复数据删除技术
VLS9000VLS12000 EVA网关
采用了动态重复数据删除技术VLS6000系列
D2D1000系列D2D2500系列D2D4000系列
简单易用,成本低
小型企业
iSCSI 入门级机架
较小规模的IT环境或远程办事处
iSCSI 大容量解决方案
拥有小型数据中心的中等规模企业
iSCSI或光纤通道 单节点系统
中等规模或大型企业数据中心
中到大型光纤通道存储区域网 多模式系统
高性能、可扩展
大型企业数据中心
大型光纤通道存储区域网
入门级中档企业级
HP Data Protector软件和这些有什么关系呢?
现在,HP StorageWorks虚拟库系统、HP StorageWorks 磁盘到磁盘备份系统及其他供应商的硬件均提供了重复数据删除功能。
以前曾提到,存储设备的重复数据删除功能或者是"嵌入式重复数据删除"(动态重复数据删除),或者是"后流程"(加速重复数据删除)技术。
对于HP Data Protector软件来说,这两种方式都是完全透明的。
HP Data Protector高级备份到磁盘许可
从2008年7月1日起,HP Data Protector高级备份到磁盘许可将涵盖HP Data Protector文件库和虚拟磁带库(VTL)上的计划/占用容量。
如果HP Data Protector软件以独占方式使用虚拟磁带库,则建议用户购买一些与该虚拟磁带库物理容量相匹配的高级备份到磁盘许可。惠普将这种虚拟磁带库物理容量称为"可用本地容量"。其他厂商称之为"原始容量"。新的物理容量/占用许可不需要考虑压缩比率和重复数据删除率,也不需要考虑RAID开销。
相关的HP Data Protector高级备份到磁盘许可包括:
- 针对1TB备份磁盘存储的B7038AA容量许可
- 针对10TB备份磁盘存储的B7038BA容量许可
- 针对100TB备份磁盘存储的B7038CA容量许可
注:
加速重复数据删除容量许可针对当前的虚拟磁带库系统机型(VLS62xx、VLS66xx、VLS9000、VLS12000)提供。这些许可不属于HP Data Protector许可计划的一部分。
验证虚拟磁带库的容量
用于验证虚拟磁带库上已占用或分配磁盘空间的推荐工具是基于web的Command View VLS管理界面。
图5介绍了Command View VLS管理界面的相关视图,用于评估虚拟磁带库上已分配或占用的磁盘空间数量。
图5:虚拟磁带库系统管理界面
许可示例
虚拟磁带库配置
在图6介绍的示例中,虚拟磁带库(VTL)存储了5TB的受保护备份数据,这些数据由HP Data protector软件管理。
图6:虚拟磁带库系统许可示例
Cell Manager
磁盘和介质代理程序
存储区域网
介质代理程序
5TB的可用本地容量
虚拟磁带库(VTL)的可用本地容量是虚拟磁带库所报告的、全部受保护HP Data Protector备份在虚拟磁带库磁盘上所占的容量。
HP Data Protector软件利用图6示例中的全部5TB容量,共需五份B7038AA高级备份到磁盘许可。
注:
用户可使用容量工具套件升级虚拟磁带库,以扩展虚拟磁带库的可用本地容量。对图6示例中的虚拟磁带库(VTL)的进一步备份操作将会超出高级备份到磁盘的总许可容量,因此需要额外的许可。为了不超出总许可容量,须进行适当的容量规划。
更多信息
揭开重复数据删除技术的神秘面纱:http://h71028.www7.hp.com/ERC/cache/49205-0-0-0-121.aspx?bodycontentparams=583627-0-0-0-121&ERL=true
评估重复数据删除效率:http://h71028.www7.hp.com/ERC/cache/49205-0-0-0-121.aspx?bodycontentparams=587598-0-0-0-121&ERL=true
HP StorageWorks磁盘到磁盘备份系统(D2D):(http://www.hp.com/go/d2d)。
HP StorageWorks虚拟磁带库系统(VLS):(http://www.hp.com/go/vls)。
采用重复数据删除技术的数据保护解决方案:(http://www.hp.com/go/deduplication)