专家博客:重复数据删除技术的哈希冲突(上)

本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。 

DOSTOR存储在线12月17日国际报道:如果说我曾经还怀疑过重复数据删除技术是否已经成为主流技术的话,那么在我在浏览报纸时看到赛门铁克全版重复数据删除技术广告的时候,我的这点质疑消失无踪了。即便如此,我还是有时候碰到一些人认为重复数据删除技术是危险的难以捉摸的技术,有可能会破坏他们的数据。这种态度高估了重复数据删除过程中哈希冲突的概率,也高估了传统备份媒介的可靠性。

首先,让我们来看看你的存储系统中其他组件的可靠性。如今的硬盘驱动器的错误概率为每10的14次方比特到10的16次方比特(100到10000TB)发生一次读取错误。在备份检测到读取错误并让阵列控制器从一个错误检验与纠正(ECC)条带重建数据的时候,企业级驱动器会在T10数据完整性域(DIF)中增加一个16位CRC(循环冗余检验),而CRC遗漏错误的概率是每64K(65536)次错误发生一次。如果你的数据是在以太网或光纤通道网络上传输的,32位CRC会对数据进行错误检测,会给错误数据返回正确数值,而错误的概率是在10的9次方分之一。

最后,如果你因为不信任重复数据删除技术而不采用这种技术的话,你有可能是把数据写入到LTO-5磁带中,后者的错误概率为每10的17次方发生一次。当然,10的17次方听起来很强大!彩票的中奖概率是10的8次方之2。LTO-5的错误概率比这个中奖概率要低10亿倍!当然,磁带的错误概率不包括媒介本身以外的错误,因此磁带误操作就不包括或计算在内了。

那么,这些媒介的可靠性水平和重复数据删除备份目标端比起来如何呢?在基于哈希算法的重复数据删除系统中,SHA-1是最常用的哈希函数。在20个字节的哈希值中,来自不同数据的两个数据块产生同样哈希值的概率是10的48次方分之一。这是一个相当可观的数字。当然,我们担心的是数据中心中两个数据块是否会产生哈希冲突,而这又依赖于重复数据删除环境下的数据量。

欲想了解更多,请阅读:专家博客:重复数据删除技术的哈希冲突(下)