存储技术:重复数据删除技术的一些细节

自从磁盘成为备份配置文件中的一部分之后,重复数据删除技术就成为当今一项最热门的技术。通过这项技术,用户能调整可用空间大小来适应不断增加的需要被存储的数据;重复数据删除技术的出现,使得磁盘看起来像磁带一样成为一个可以看得见的用于短期数据备份的设备。

从企业应用的角度来看,不管将磁盘用作备份数据的短期存放或者是长期的存放都不是一个好的选择,因为备份窗口并不会为此而缩短,恢复的过程也从不会变得更快或者更容易,但对家庭用户来说,相对廉价的磁盘是比较合适用于存放数据的,由此也可以不需要使用磁带。这是一幅看起来很不错的画面,然而却被不得不面对的现实所影响:似乎看不清究竟还有多少增长的数据需要备份。

重复数据删除技术的背后的想法其实是非常简单的,它的本意在于能通过删除重复的备份内容来对需要备份的数据进行“瘦身”,使得用户能在原有的存储空间大小下更有效率的存放10倍到50倍原有数据量大小的数据。

这项技术的优势是相当明显的,在高级管理层看起来,这项技术是一个相对简易的体验过程。然而重复数据删除技术的确有它微妙之处,比如它所拥有的性能、效率以及管理方面的优势,随着产品和环境的不同,这几个方面也随之不同。

在规划备份策略的时候,用户需要理清思路知道有哪些重复数据删除技术可供选择,不管是选择文件级别还是数据块级别的去重方法、是基于哈希算法的系统或者还是基于字节级别比较的技术、是在线去重还是后处理去重等等,都需要做出适合用户具体环境的决定。但在实际的生产环境中,为了达到最佳去重性能以及在恢复数据的时候能在规定时间内,有不少细节的地方还是需要去仔细斟酌的。

在实施重复数据删除之前,只要提前多做一些简单的功课,后面就能省去很多麻烦,最关键的是能帮助用户对重复数据删除技术带来的好处有合理的认识和期望。