未来的发展方向——主存储重复数据删除

10年前,数据量是10TB的数据中心为数不多。而现在,数据超过100TB甚至10PB的数据中心比比皆是。在未来的10年,数据还会持续的增长,EB级别数据中心肯定会出现,并且会成为主流。事实上,曾有一位客户告诉笔者,三年以后他们的数据就会达到EB级别。

随着数据的持续增长,现在的存储系统肯定无法满足需求。那如何来解决这个问题呢?使用新技术是这个问题最好的答案。硬盘的密度会继续增加,这样在固定空间内就可以存储更多的数据。虽然容量大的硬盘会影响应用程序的性能,但智能的分层功能会将高速的硬盘和大容量的硬盘分隔开,这样系统的性能问题和容量问题都能完美的解决。

还有一些其他的存储优化技术,例如自动精简配置功能,可以将你的存储空间利用率最大化。使用传统的存储技术,在已分配的空间中,大约有50%到70%空间得不到使用,在白白浪费。使用自动精简技术就可以提高存储空间的使用比率。在PB级别的数据中心中,如果将上面的数字降低到20%,那将会节省相当多的空间。在1PB的存储环境中,使用自动精简配置,可以节约大约300TB到500TB的空间。如果是10PB的环境,将会节约3PB到5PB的空间。

另外一个技术是主存储重复数据删除。即使是适中比率的重复数据删除都可以节省相当多的资金。如果你的数据占用的空间是100TB,使用这种技术可以非常容易的将使用空间减少到50TB。2:1的压缩比率是非常容易实现的,如果比率达到5:1呢?将会有80TB的空间可以节省下来。在1PB的数据中心中,保守的估计会节省500TB的空间(2:1比率),乐观的话就可以达到800TB(5:1比率)。10PB的数据可以节省到8PB。

不但可以节省资金成本,还可以大幅度降低软件维护的费用,即使在人员成本方面,也可以得到优化,如果再考虑到电量,散热所节省的费用的话,主存储重复数据删除完全可以改变整个IT的格局。

如果上面所提到的优点都能实现的话,你肯定想马上就部署这项新技术。然而现实并没有那么乐观,因为它仍然有一些不容忽视的问题需要解决,例如:
1. 它会对性能造成影响,这是客户无法接受的。

2.主存储重复数据删除可能需要更多的内部资源(例如,内存和CPU),而有些客户却由于当初的设计缺陷而无法满足这个条件。

3. 即使没有内部资源问题,一些存储系统需要更改现有的架构才可以部署重复数据删除,对一些客户来说,这个过程可能需要很长一段时间或者根本就不可能实现。

4. 无论厂家如何宣传,主存储重复数据删除仍然是一项复杂的技术,大部分的厂家的产品并不成熟

5.如果有意外出现, 那后果是不可设想的,所以在选择供应商时,一定到慎之又慎。

截至目前为止,有两个厂家提供了主存储重复数据删除设备。不过这些产品的可扩展性和性能都存在问题,因此其他的厂家并没有效仿。今年年底到2011年会有更多的产品出现。

重复数据删除是虚拟化的一种,笔者认为以后它将像今天的服务器虚拟化一样,会更加广泛的应用与各种数据中心中。数据日益增加是不可改变的事实,我们需要新的技术来解决这个问题,希望重复数据删除不会让我们失望。