大数据是可重复数据删除的？-DOIT-数据产业媒体与服务平台

前不久本网站曾报道了Permabit和Isilon就大数据所展开的一场“论战”，该“论战”吸引了众多目光，巴西的ESG分析师Ronaldo Yamashita在“观战”之后发表了自己的看法，他反对Isilon关于大数据不可压缩的观点，并作出了以下阐述：

我们所谈论的“文本”大数据，如日志或者从不同的来源（如网络、信贷机构、Facebook）收集的信息，它们都是高度可压缩的。事实上，大多数数据仓库产品都是基于column的压缩，以达到较高的重复数据删除比率和提高性能。毕竟，最快的I/O是你不必实现的I/O。

重复数据删除数据的结果是提高缓存利用率，而降低磁盘I/O。重复数据删除可用于任何规模的数据；只是目前大多数重复数据删除产品还不能处理大容量的数据，但这并不意味着不能实现。

当我们从整体存储角度来考虑，而不仅仅是从专业数据库的角度考虑时，Rob Peglar对于元数据的担忧就是有道理的。但也有许多的解决方法。

微软曾在名为“ChunkStash”的技术研究中提出了一种减少重复数据删除对RAM需求的方法。这种方法在RAM中仅为每个记录分配2个字节。

而复制节点之间的元数据问题可由初创厂商Scality提供的方法来解决，它使用DHT（Distributed Hash Tables）来处理元数据的分布。这与P2P（端对端）系统处理PB级规模数据所使用的技术是一样的。

从性能的角度来看，Scality并没有Isilon高效，但它提供了一种可能解决该问题的方法。

NetApp采用的方法和Isilon的方法一样“高性能”，而且是以更加简单的方式来解决这个问题，它并没有重复删除元数据的复制。重复数据删除在单个节点上实现，而集群更加智能于聚合同类型的文件。这对性能和重复数据删除都更加有利。

而诸如Vertica和Greenplum的数据库也得益于数据的位置。它们并不使用全局重复数据删除，却获得了可观的压缩比。

由戴尔收购的压缩/重复数据删除厂商Ocarina曾展示过如何从意外的文件（比如图像和视频）获得更好压缩率的方法。该方法可以用于像石油和天然气这样的行业，它们的数据曾长期被认为是不可能达到良好的压缩率。

许多其他厂商处理数据的方法可能会获得更高的压缩率。来自IBM的Jesse Jonas曾介绍了如何堆积数据的方法，这是一种非常不错的数据精简算法。

压缩和重复数据删除将在大数据中起到举足轻重的作用；这一切都将关于与经济。正如Steve Duplessie所指出的那样，下一代存储之争将围绕着经济所展开。如果你的系统相比竞争供应商的系统需要更多数据级的存储，那么你就难以去竞争。

大数据是可重复数据删除的？