数据重删技术概述

1.源端去重 && 宿端去重

源端去重(Source Deduplication)首先在客户端计算待传输数据的指纹并通过与服务端进行指纹比对发现和消除重复内容,然后仅向服务端发送非重复数据内容 , 从而达到同时节约网络带宽和存储资源的目标。

宿端去重( Destination Deduplication)直接将客户端的数据传输到服务端,并在服务端内部检测和消除重复内容。两种部署方式都能够提高存储空间效率,其主要区别在于源端去重通过消耗客户端计算资源换取网络传输效率的提升。

也不见得在源端去重能够节省多大的网络开销啊~毕竟首先得与宿端进行通信,源端去重会将重删过程划分成好几个阶段。

2.当前去重方法突破性能瓶颈的主要技术手段包括(1)构造内存快速索引(布隆过滤器)、挖掘数据局部性(缓存)、利用数据相似性(extreme binning)和使用新型存储介质(chunkstash)

3.重复数据删除技术主要分为两类:

(1)相同数据的检测技术和

相同数据主要包括相同文件及相同数据块两个层次. 完全文件检测(whole file detection,简称WFD)技术主要通过 hash 技术进行数据挖掘; 细粒度的相同数据块主要通过固定分块(fixed-sized partition,简称FSP)检测技术、可变分块(content-defined chunking, 简称CDC)检测技术、滑动块(sliding block)技术进行重复数据的查找与删除.

(2)相似数据的检测与编码技术

利用数据自身的相似性特点, 通过shingle 技术、bloom filter 技术和模式匹配技术挖掘出相同数据检测技术不能识别的重复数据; 对相似数据采用delta 技术进行编码并最小化压缩相似数据, 以进一步缩减存储空间和网络带宽的占用.

4.重删对数据可靠性的影响:

上述这些技术使得共享数据块的文件之间产生了依赖性, 几个关键数据块的丢失或错误可能导致多个文件的丢失和错误发生, 因此它同时又会降低存储系统的可靠性, 为此, 一些研究者又引入了冗余复制技术和纠删码技术等来提高重复数据删除系统的可靠性.