专家博客 重复数据删除技术后的数据优化方案

本文作者George Crump是Storage Switzerland的创始人同时也是George Crump Consulting的创始人,具有二十多年经验的独具存储咨询顾问。

重复数据删除已经征服了备份领域,并很快成为主存储的必备技术。该技术对饱受存储容量不足之苦的存储管理员来说是个福音。不过在几乎每个系统都有某种形式的重复数据删除且该技术得到广泛应用之后,我们还能用什么来优化存储?毕竟,存储还要增长。文件仍将继续变得越来越大,文件产生的数量也将越来越多。

在存储优化上,我们不能止步于广泛应用重复数据删除技术和数据压缩技术。如果我们止步于重复数据删除和数据压缩,一旦节约出来的空间被消耗光,我们将会看到存储增长率会再次加速。我不认为答案是严格的保留政策——在文件生命周期结束的时候删除文件。我在《Information Week》发表的文章中,曾表示满足日益增长的合规要求的唯一途径是基本上将每个东西都永远节约。那么下一步我们能做什么?

首先,我们需要最大化重复数据删除和数据压缩所带来的好处。随着围绕这些系统的硬件变得越来越强大,它可以进行更加具有深度的数据检查并发现更多的冗余。重复数据删除还可以在存储堆栈的上下进行整合。像备份那样,利用针对主存储的同样的重复数据删除元数据可以带来更高的整体存储效率。

我们还必须推动软件超越重复数据删除引擎所面临的限制。我们需要跨卷的重复数据删除,甚至跨制造商的重复数据删除,以便支持对单个超大卷的重复数据删除。如今的许多重复数据删除引擎受限于它们所能处理的重复数据删除数据的数量。这导致了许多重复数据删除孤岛的产生,而在这些孤岛之间也存在着重复的数据。

我们还有一些更加可接受的控制数据增长的方法来进行数据优化。比如,一个准备在相对低分辨率视频投影机上播放的PowerPoint幻灯片不需要载入只有高端图像打印机才能打印的图片。

在我们已经尽可能地让重复数据删除技术变得更有效率之后,我们要么要继续面对存储增长,要么必须寻找新技术来进一步优化存储(让我们祈祷存储企业家们帮我们进行探索)。这个新技术必须能够利用或辅助重复数据删除技术和数据压缩技术,因为这些技术已经成为几乎所有存储系统的内置组成部分。如果这种新技术没有出现,我们还是必须得面对数据的再次增长。

找到一种方式来存储所有数据不是问题。存储系统已经可以支持PB级的存储,并且每年容量还在不断增加。我们同时还有能力来更好地连接独立的系统,因此即使一个系统的容量满了,我们还可以增加另一个系统并在某种程度上继续以原来的形式管理存储系统。我们的问题是如何在数据中心中配置所有这些容量以及如何给这些系统提供电能。

我所能看到的一个潜在的解决方案就是超级密集和高能效的MAID(大规模闲置磁盘阵列),让整合了重复数据删除技术的MAID用于最终归档。这样,我们可以充分利用数据中心的每一寸可用的建筑面积来存储我们所需要的所有数据,并只有在访问数据的时候才提供电源。另一个解决方案就是将所有这些旧数据发送到云存储服务提供商那里,把问题留给他们。云存储服务提供商的存储系统可以扩展到数百PB。