专家博客:重复数据删除的分块流程(上)

本文作者Howard Marks是Networks Are Our Lives公司的首席科学家。这家公司总部位于新泽西州霍博肯,从事顾问工作。1987年以来,他一直专注于系统的分析和写作。 

DOSTOR存储在线4月8日国际报道:上次在分析重复数据删除分块流程的文章中,我们认为可变分块技术,也就是说根据数据的内容来分配块的边界,是相当好的技术。不过,随着重复数据删除不局限于备份设备(比如磁带,或其他备份应用程序专用格式的数据),进入备份应用程序和主存储,固定分块重复数据删除的优势开始变得明显。

固定分块重复数据删除的主要优势在于占用较少的CPU资源。固定分块系统不需要CPU开销来检查数据并判断数据块的边界。它们只要将数据分解成数据块,就像其他文件系统那样。实际上,一些主存储重复数据删除,比如NetApp的产品,使用的正是底层文件系统的块。

较低的开销同时还意味着较低的延迟性。数据块边界的计算过程需要一些时间。虽然厂商们已经在尽量减少这个时间并声称这种时间开销是可以忽略的,但是这个过程和时间确实存在,对于主存储重复数据删除系统来说可能是个问题。

不过,对于备份应用程序来说,这问题要简单许多。备份应用程序只是将数据流发送给某处的一个磁带驱动器。由于它们只是向少数大型文件执行大型顺序写入请求,因此每个请求发生数毫秒的延迟对于它们来说还不会有什么大的影响。对于传统备份应用程序,比如NetBackup或Networker来说,吞吐量才是最重要的,延迟性的重要性低一些。

欲想了解更多,请阅读:专家博客:重复数据删除的分块流程(下)