让重复数据删除更加智能
Phil Curran 发表于:13年07月18日 15:54 [来稿] DOIT.com.cn
是时候重新审视你的重复数据删除策略了。如今大部分环境都需要使用重复数据删除技术,不论是面临资源瓶颈、规模制约,还是两者皆有,重复数据删除已作为一种实用工具迅速普及。但是当面临持续快速增长的数据时,这项过于依赖基础硬件设备的策略则可能会产生其他技术问题。
先来看一些数据:平均来说,目前数据正以每年40%的速度增长,换句话说,每两年翻一番,并且没有结束的迹象——无论你承认与否,数据增长的事实就摆在眼前1。
面对这样的现状,“Parallel Deduplication”(并行重复数据删除)的概念适时而出,以提供大规模、可扩展和高弹性的重复数据删除为前提,通过以软件为中心的方式为最大的数据以及需求最多的应用程序设计,并通过一个基于网格架构和利用重复数据删除数据库(DDB)和介质运行的。根据网格结构,并行重复数据删除将联合多个DDB一起为数据保护工作(客户端和子客户端)提供一个单一、大规模的重复数据删除池:例如,两节点平行数据删除池的架构模型。由此可以通过接近线性的方式扩展重复数据删除容量和吞吐量,用来支持负载繁重的数据删除工作。
考虑到这一点,CommVault在其最新推出的Simpana® 10中推出了其第四代重复数据删除技术,该技术主要基于并行重复数据删除技术,以应对数据持续爆炸性增长带来的挑战。通过全新的基于网格的结构,第四代重复数据删除在性能及规模上都提升了一倍,从而能够使企业的基础设施运行更加智能化。除了可以提供大规模容量和吞吐量,企业也可以将并行重复数据删除方法与CommVault独有的GridStor®技术相结合,得到完整的负载平衡和作业故障转移选项。如果重复数据删除池的一个节点出现故障,那么其他节点会立刻接管现有任务从而避免任何宕机的可能。
图示:两节点并行重复数据删除池配置示例
举例来说(图示1),将两个重复数据删除节点联合在一起,每个节点最多可保护120TB的前端容量2和大约4.5TB/小时的吞吐量3。通过将两个节点联合到一个单一的重复数据删除池,我们最多可以对240TB的数据和9TB/小时的吞吐量进行重复数据删除管理。
并行重复数据删除技术只是Simpana 10众多功能之一,它可以让重复数据删除更加智能。随着数据的不断增长和数据处理的复杂性,在制定重复数据删除策略时,有必要考虑:
1. 将远程及中央办公室的重复数据删除整合到一个单一的软件架构中。企业可以在远程站点利用单一节点重复数据删除策略。然后在中央站点利用并行重复数据删除策略,采用DASH Copy技术将删除的重复数据拷贝到中央站点。将单一节点和多节点重复数据删除功能融为一体,可以为企业提供足够的灵活性,基于企业的业务需求,对每个站点的数据容量进行相应的调整。
2. 利用DASH FULL技术进行永久增量备份。这可以在最大限度降低对生产服务器和网络影响的同时,大大提高备份策略的智能性,更好地利用原有的基础设施。例如,采用传统的每日增量备份、每周完全备份的方式,虚拟机(VM)每个节点的备份数据仅能达到20-25TB。而采用永久增量和DASH备份技术,每个节点就可备份40-50TB的虚拟机数据。
3. 基于数据类型,通过单一控制台全面统一管理多个重复数据删除池,可确保企业创建的重复数据删除池在删除重复数据方面带来最大的效益,从而优化资源的利用。
最后,关于并行重复数据删除,企业还需要做额外考虑:Simpana 10在并行重复数据删除策略中支持两个节点,虽然该策略对重复删除数据可以联合的节点没有硬件上的限制。并且企业可以期待CommVault把单一并行重复数据删除策略的节点数量推向一个极限;此外,在存储策略中,需要预先对并行重复数据删除节点进行配置——单一的节点无法转换为两个节点,两个节点也不会转换为4个节点,因此应对数据增长的解决方案仍然需要提前进行规划。(文/ Phil Curran,CommVault基础设施解决方案产品营销总监)
注解:
1 2013年消费倾向调查表,ESG 2013年1月
2 120TB需要使用SSD——DDB商店
3吞吐量初测为Simpana10的标准,这个数字预计在Simpana10的生命周期中还会增长。