存储e周刊特写212期 将重复数据删除用在主存储?

      这周我们的话题还是与重复数据删除有关。

  上一期《存储e周刊》,我们为您讲述了这个混乱、复杂的重复数据删除市场,理清了IBM、惠普、Sun、Diligent、昆腾、Data Domain、飞康以及其它业内公司在重复数据删除技术市场上错综复杂的OEM、分销与授权协议。我们甚至由此激发出了飞康公司此前颇有些低调的与Sun在重复数据删除领域合作的细节:飞康公司在新闻稿表示,Sun公司在其Sun StorageTek VTL Prime产品中,应用了飞康重复数据删除解决方案,这表明,在Sun与飞康的战略合作伙伴关系中,实际上也包括重复数据删除技术–这一点需要在本周的文章中予以补充一下。

  我们这周,不会再去谈重复数据删除市场的市场格局了–之前我们已经谈的够多了,我们也不想去谈各家的重复数据删除技术孰优孰劣,因为很显然,每一种技术的出现都有其适合伸展的市场,即使这个市场有大有小,我们也必须要以辨证的看法去看问题,而不能一杠到底,所以,最后的答案往往是这样的:"哪一种重复数据删除技术比较好,还是要看用户的实际情况。"

  所以,本周我们想谈另一个与重复数据删除技术有关的话题:你是否能够在主存储上应用重复数据删除技术?对于这个问题,我们希望我们能够给予一个明晰的答案,哪怕仍然是一个"一分为二"的答案,我们也力图将分开的"二",分的更加明确一点,就像楚河汉界那样。

  主存储:是能随便动的么?

  Storage Switzerland 及 Storage Switzerland Events的创始人兼主席George Crump认为,在主存储上进行重复数据删除可不是闹着玩的。

  这位存储专家认为,主存储是对性能十分敏感的而且生怕出现问题,如果因为执行重复数据删除而影响了生产环境的性能表现,企业是肯定不能接受的,因此,重复数据删除技术必须是高效快速的,它不能影响性能,或者在重复数据删除的过程中绝不能有任何的"性能波段"。而且,还涉及到另外一个问题:主存储都是生产系统,存储在上面的数据会是"静止"的么?

  答案肯定是否定的,既然是生产系统,就肯定是在线系统,那么,肯定会是经常访问的,但是,重复数据删除技术与压缩技术有一个共同的特点,那就是压缩技术的压缩比越高,所需的解压缩的时间越长(用WinRAR的人肯定都见过标准、最快、最好等多个选项),重复数据删除也是如此:重复删除的水平越高,数据读回时对性能的影响越大

  除了在性能上的担忧之外,主存储应用重复数据删除是否会出问题也是我们不得不考虑的问题,当然,我们在此没有怀疑任何一家重复数据删除公司会错误的删除数据,只是我们想到一个问题,在任何一个IT系统中,部署的应用越多,系统的风险也越大,那么,用户到底做没做好准备去再在其系统上加装一个系统?尤其是,这个系统将会将会在每一次存储和读取数据时现身,这是另外一个需要考虑的问题–或许用户可以尝试重复数据删除卡,也是个不错的选择,只是我们是不是要去考虑一下标准化和兼容性的问题呢?目前我还没有遇到这个产品的用户,或许过几个月会有答案。

  主存储:有多少的"删除"余地?

  重复数据删除出生的初衷是什么?是因为有很多像我一样每天做备份,而且不仅做一个备份的用户–自从我的移动硬盘丢失过一次数据之后,我每天都要把新文件在移动硬盘和闪存上存两份,对于许多企业来说也是这样,像工商银行这样的金融用户,几乎每天的交易数据都要存三份:本地备份系统一份,长期归档系统一份,异地的灾备中心还要有一份,有时候,甚至还会另备份一份在其它备份系统上,因为他们的数据太宝贵了,如果丢失,造成的损失绝不是个小数目,但是这里面有个问题:过多的备份,尤其是很多用户的全备份(而不是增量备份),让存储系统不堪重负,所以才想起去压缩,去删除重复数据。

  但是生产系统显然不太一样。

  首先,生产系统是独一无二的,我们的生产系统中,能够有多少数据是重复的?10%?20%还是50%,很显然,除了抄送了多人的电子邮件和某些标准格式的调查表之外,或许没有太多的数据让我们去删除重复数据,像George Crump就觉得,对于生产数据来说,尽管可能会有一些重复–比如同一个数据库的"额外"副本,但大多数情况下,数据冗余并不像备份或归档那么多。

  随着基于磁盘的归档和磁盘备份变得更加普遍,主存储的冗余数据更少了。过去,保存数据库或文件的额外副本的价值是"以防万一"。现在这些副本,可以很容易地发送到磁盘归档或磁盘备份设备当中。(这是一件好事! )注意:当前用户期望看到的存储效率提升20倍或更多,在主存储就不要想了。一个更现实的目标可能是3倍,最多5倍。

  另一个现象是:大部分的主存储的数据已经是预压缩格式。文件,如图片,媒体文件,和特定行业的数据集,是已经预先压缩过的。即使最新版本的流行的office应用也是预先压缩的。这些预压缩文件,往往代表了企业增长最快的最大的数据集。为应对生产数据的"独特性"和"预压缩",一个成功的主存储精简技术需要"挖的更深"。内置的数据精简(重复数据删除)在备份和存档有明显的优势,但生产存储中,带外管理会更有效。

  当然,在主存储上,我们仍然有一些关于重复数据删除的建议。

  尝试应用:如果你有钱

  "以前没有人能够真正对在线及主存储进行重复数据删除,因为这的确很难",George说,"(在线数据)的性能要求更加严格,而且几乎每个文件都已经在保存过程中被它自己的应用程序给压缩过了"。例如,他指出Microsoft 2007文档在关闭时就被自动压缩。这也就是说这个文件不能通过传统方法来再次压缩以节省空间–而这正是重复数据删除作用的领域。

  另一个需要去删除一些重复数据的地方或者说有重复数据可能性更高的地方,是Exchange和Lotus,我们都会常常收到群发邮件,而当这些群发邮件中拥有一个庞大的附件时,可删除的重复数据就比较多了,可以肯定的是,每个周末每个公司总会有很开朗的同事发一些视频和图片,而且一发就是几十人–这个时候,单一实例存储,很有用。

  第三个应用领域是当你的虚拟机很多的时候,随着数据中心的虚拟化建设,原来的一台服务器现在可能变成了多台虚拟机,有多个操作系统在运行,而这些操作系统很多是重复的,这就造成了大量的重复数据,在主存储中引入重复数据删除,可以消除此类冗余数据–NetApp公司中国区总经理柯志明是这样看待这个问题的,对于这样"应用在主存储上的重复数据删除",IDC的分析师Laura DuBois认为:NetApp也许会开辟出新的应用领域,但世上没有十全十美的事,他表示,我们也要看到,在主存储上做重复数据删除可能给生产系统性能造成一定影响。对此,柯志明先生坦言"我们做过一些测试,用了De-Dupication大概有5%-10%的性能影响"。

  那么,对于那些希望将重复数据删除加入到主存储的人们眼中,到底他们的商机在哪里呢?打算将重复数据删除推进到主存储的Ocarina公司的产品副总裁Carter George认为,一些燃气及石油行业可能对该技术感兴趣,因为它们有大量的地震图片文件需要存储。他认为大型金融机构和事务类型的环境也可能适合重复数据删除。"数据库比较棘手",他说,"我们可以缩减数据库文件的大小,但是由于数据经常在变动,这些文件缩小又膨胀–重复数据删除并不能起作用"。

  但是在最后,我们打算将重复数据删除归结到一个亘古不变的问题上来:你到底有钱没钱?

  随着顶级存储制造商开始生产1T的SATA硬盘,购买大容量的存储空间越来越容易–未来,SSD的发展最终会带来一个更美妙的主存储世纪:容量更大,耗电更低,价格更平易近人,而性能,可能会超乎我们的想象!

昊观存储:

  于是,我们在此的结论是:多媒体、电子邮件以及工作流文件可能(请注意,是可能,在看到真实效果之前,我只能用"可能"二字)适合该重复数据删除技术,但是我们几乎可以肯定地说,那些需要处理大量数据库文件的环境则不适合该技术。

  当然,为了履行文章开头对读者的承诺,给大家一个明晰的答案,所以,我做了如下的结论:

  如果你有钱,在主存储中用吧!否则,在你的Exchange里用单一实例技术,当然,还有一种情况是,如果你的虚拟机很多,重复数据删除技术或许有用武之地。

  当然,我们欢迎更多的意见,希望能够起到抛砖引玉的作用,十分期待会有更多令我们眼前一亮的观点以及技术可能,套用广告语就是:存储可以更美的。