重复数据删除 应对数据增长的重磅武器

过去几年,重复数据删除作为能够对抗数据资料大规模增长的武器,在数据中心中已获得广泛认可。

IT部门几乎在任何事物中都能为重复数据删除找到一席之地,从主存储到长期数据保留,但是重复数据删除在数据中心里值得称道的职责却在于备份和灾难恢复(DR)。在这里,重复数据删除技术提供了最大效益。由于企业通常重复备份相同的数据集,重复数据删除算法能够在备份期间最有效运行,并对缩小数据规模发挥最大影响力。

来自昆腾、EMC、赛门铁克等厂商专用的、基于设备的重复数据删除解决方案已占据主导地位,预示着这一技术趋于成熟。原因是什么?任何时候重复数据被删除时都随着时间推移而进行一些“清理”,即大磁盘的碎片整理。这种“清理”后台任务必须在某处进行,并需要强大的处理能力。IT部门和数据中心依靠设备来执行这一任务,而无需中断其运行或其它服务器。

选择合适的重复数据删除解决方案的注意事项

无论是在备份和灾难恢复设备中,还是用于其它应用程序,对于任何考虑使用重复数据删除技术的人来说,以下事项及基本术语需要重视:

设备vs.软件:需要了解将重复数据删除解决方案作为专用设备来部署,以及使用运行在服务器上的重复数据删除软件这两种方法各自的利弊。一些软件解决方案相对价格低廉,但是可能无法很好地扩展,以满足日益增长的容量需求,其性能取决于它所在的服务器。软件方案似乎在灵活性方面差一些,但是对那些有资源来承担集成、管理和监控重任的客户来说可能是有效的。如果你选择软件方法,一定要了解运行上述“清理” 任务所需的处理能力,及其对服务器的影响。硬件设备有自己的空间和功耗要求,有时耗电量很大。它们通常是自我管理的,提供更大的灵活性和简洁性,并得益于硬件优化。对于那些寻求快速部署并轻松集成到当前环境的客户来说,硬件解决方案非常受欢迎。

可用容量vs.原始容量:可使用容量是终端用户最直接、最适用的规格。它指的是进行任何重复数据删除之前的容量,并不包含用于元数据、数据保护和系统管理的任何存储。一些厂商规定“原始”容量,它比“可用”容量稍微高一点,但是这一规格会产生误导,因为不同厂商和数据保护方案将会有不同程度的开销。重复数据删除将需要一些原始磁盘容量来存储元数据,这些容量并不供终端用户使用。在这两种情况下,这些容量都被归为“重复数据删除前容量”——如果用户拥有10:1的重复数据删除率,那么他们可以存储“可用容量”10倍的数据。如果他们拥有 20:1的重复数据删除率,那么他们可以存储“可用容量”20倍的数据。

性能:确保不仅要了解“写入”和“读取”速度——通常被注明为TB/小时,而且还要询问 “读取”或“恢复”速度,以了解这是否满足贵公司的服务水平目标(SLO)。最后,要了解在必须进行一些后台“清理”任务的“稳定状态”期间,系统性能会受到哪些影响。重复数据删除方案的性能可决定IT部门如何能够在任务分配的时间段很好地完成其备份。

硬盘密度:硬盘的密度继续增加,而重复数据删除设备可能适用1 TB到3 TB的硬盘。甚至4 TB的硬盘现在也可用于消费类设备,并开始用在一些主存储阵列中。在一般情况下,密度更高的硬盘将转化为“节省数据中心占地面积以及省电”的优势。然而,随着硬盘密度的增加,当硬盘出现故障时,数据重建的时间也会同比增加。这会给系统带来新的不稳定因素。因此有无高效的硬盘(数据)重建技术,对于系统的稳定运行至关重要。

可扩展性:每家公司都有不断增长的数据。对于任何重复数据删除解决方案来说,这不再是 “是否需要部署更多容量的问题”,而是“何时部署”的问题。无论是基于设备的方案还是基于软件的方案,最重要的是要了解它如何随着时间推移而扩展。如果一个解决方案能够在未来3-5年随着预期数据增长而扩展,它在目前可能就是更好的投资。如果它能随着数据增长而细化扩展,那就更好了。

加密:一些系统提供磁盘存储加密,以防止在磁盘丢失或被盗情况下数据泄露。通常这种加密会影响系统性能,因此重要的是要了解这种重复删除数据加密解决方案,以及它对系统性能会产生哪些影响。

系统和数据可用性:不同厂商拥有不同的解决方案来应对其设备中的磁盘故障,以确保被删除的重复数据能够在需要时被找回并恢复。了解确保系统和数据随时间推移一直可用的不同方法。

云:重复数据删除能够支持的关键一点就是:在广域网上,可能是在站点之间,复制这些数据之前,有效大幅降低数据规模,以提供灾难恢复,或作为将数据复制到云中的一种手段。计划利用云存储的IT部门必须了解重复数据删除技术如何适应不同的云选项。

重复数据删除以凭借其帮助解决数据增长问题的能力,尤其是备份和灾难恢复的能力而深入人心。IT部门现在有大量重复数据删除方案,这既是好事也是坏事。希望以上资讯能够帮助你更轻松地找到合适的选择。