DoSTOR存储专访 EMC BuRA 数据时代大禹治水

DoSTOR存储专访:EMC觉得自己更懂得《大禹治水》这个中国上古时代的传说故事,在这个流传已久的故事中,著名的大禹用以疏代堵的方法,成功的解决了年年泛滥的洪水灾害,而他的父亲鲧,却采取了高筑水坝的方法,结果,所带来的是更大的灾害,与丢掉性命的最终结局。EMC认为,目前在数据管理上我们也出现了同样的问题,过去,我们所称之为海量存储的光盘、磁带,甚至是磁盘都将难以负荷数据的飞速增长–根据IDC的数据,目前数字宇宙的年复合增长率是60%,而存储容量增长的速度只有35%左右。

我们正一味增加数据存储容量,扩容存储系统的徒劳举动,在EMC以及许多同样关心这个"新一代大禹治水故事"的厂商眼里,就像是大禹的父亲鲧所做的那样,不停的在增加堤坝的高度,不停地用"得过且过"的手段来应对随时可能出现的存储缺口。与此同时,我们仍然避免去面对另一个问题,那就是备份窗口的不断扩大–而客户对于备份窗口的要求很高。在每一家企业中,要备份的数据越来越多,备份窗口不足(无法在允许的时间内备份完所有数据),但是,IT系统不可能停机备份数据从而影响到关键业务应用,服务级别更是不能降低。

曾经被我们奉为救命稻草的磁盘看样子也不是万能的,在绿色节能的年代,硬盘的能耗被磁带和光盘轻易的比拼了下去,同时,尽管磁盘在性能上有优越性,磁盘价格也在不断下降,但是,仍然不可能像磁带和光盘那样海量供应–而且即使是能够无限制的供我们使用,我们也必须明白:能耗已经成为一把利刃,而单纯的依靠存储介质的容量增长也会让我们接受与鲧同样的失败。

EMC大中华区市场及渠道战略总监梅敏玲女士

事实上,数据爆发式增长的主要来源是由于我们对数据保护的要求不断攀升,越来越多的且严格的备份、归档需求,造成了数据被不断复制、复制、再复制的情形–就像雪球一样越滚越大,对于EMC来说,能否抑制这种数据的"疯狂复制",是"疏通"的重要意义所在–重复数据删除、Spin down技术、BuRA解决方案是EMC"开挖河道,疏通水路"的重要工具,而扩大存储容量看起来只是必要的"堤坝"而已了。

BuRA:整合 适度 容易使用

"我们现在的处在一个新的时代,这是一个数据的时代,数据中心不再是计算中心,而数据是不能改变的。对于应付数据的增长来说,更大的空间不在生产存储,而是在其背后的,那些海量的、没有尽头的数据存储系统中。" EMC大中华区BuRA业务总经理曹晖表示,BuRA的作用是帮助用了解,他们的数据存放在哪儿,将会如何处理,而BuRA的市场之所以很大,是因为"那些顶尖客户的最终备份系统都很原始。"

"所以BuRA不是集合了最强最先进的技术,而是最合适的技术,整合的力度是前所未有的。" 在曹晖的眼中,BuRA的作用就像是黄河的河道,这个河道负责承载企业的数据,并把数据引导向正确的方向,对于企业来说,BuRA最重要的意义是整合、实施和易于使用,他的同事EMC BuRA技术顾问黄斌相信,相较于传统备份繁琐的多步骤恢复和高达20%的跨网络带宽浪费而言,BuRA下的数据备份与归档,能够解决这些问题,帮助企业在面对事件不断增长的数据时,保护更多的数据,同时,解决包括磁带性能。远程办公室的大量数据以及虚拟化环境带来的备份难题在内的多种现实问题。

EMC大中华区BuRA业务总经理曹晖

据黄斌介绍,在整个BuRA中,对于数据的"疏导",即减少备份量的重复数据删除技术被应用的非常广泛,包括单一实例存储、源端重复数据删除、目标端重复数据删除技术在内的组合完成了BuRA内部的数据精简过程。他表示,在活动归档方面,EMC提供了Centera单一实例存储技术,在文件、邮件归档方面,DiskXtender和MailXtender也具备了单一实例存储,在远程办公室、VMware环境下的备份以及带宽受限的IP备份环境中,EMC提供的则是基于Avamar的源位置全局重复数据删除技术,而在LAN磁盘备份和SAN虚拟磁带库备份中,EMC则分别提供了,基于EDL 3D 1500/3000虚拟磁带库之上的目标位置重复数据删除和适用于EDL 4000的磁盘库重复数据删除,并将在今年第三季度提供给最终用户使用。

重复数据删除:BuRA的疏通之道

虽然重复数据删除技术的发展已经非常成熟,各个供应商之间的技术差别和实现方法并没有较大的差别,但是黄斌仍然相信,EMC的重复数据删除技术仍然具有优势,因为EMC提供了"从独立的技术到集成的功能"的技术转变,并有BuRA这棵可以乘凉的大树。

据介绍,EMC能够根据客户的不同需求,提供三种重复数据删除技术。一是对象级的重复数据删除。在EMC Centera归档平台中,因为要满足法规遵从,EMC提供文件级(也叫对象级)的重复数据删除,将一个文件视为一个对象,当一个对象又被再次存储时,它不会存两份同样的数据,只是返回一个指针,并提示这个数据已经存在。但只有两个文件一模一样,它才会只存一次。如果文件哪怕有微小的变化,它就要存两次。二是Avamar重复数据删除技术,它是变长块的源端重复数据删除,删除率达到300:1,500:1,甚至更高。三是EMC虚拟磁带库(EMC Disk Library,EDL)。EDL跟Avamar是一个互补,Avamar是在源端进行重复数据删除,EDL是在后端(目标端)进行重复数据删除。

而除了技术实现方法之外,EMC提供了基于其命名的"源端重复数据删除"和"目标端重复数据删除"的不同解决方案。对于源端重复数据删除来说,其主要的作用是降低每天备份对于网络传输的开销,软硬件一体化的Avamar服务器每天对于源端,即数据生产端每天需要备份的数据进行重复数据删除,然后再进行全备份–这是最令人关注的地方,用户将可以每天做全备份,只需一步恢复就可重新运转而不用一个一个的恢复增量备份,EMC宣称这将节省50倍的存储空间,并大幅度提高备份系统的传输效率。而对于目标端重复数据删除来说,这是一种维护原有备份/恢复系统不变的基于传统备份方式的折中方案,用户仍然可以使用其传统的全备份+增量备份的方式,通过原有的备份软件和服务器进行备份,而重复数据删除技术将在后端的磁盘阵列–实际上更多的是虚拟磁带库上,进行重复数据删除,当然,这些虚拟磁带库正是EMC的虚拟磁带库(EMC Disk Library,EDL),EMC的所言,这样的重复数据删除方式将可以节省20倍的空间。

EMC BuRA技术顾问黄斌

从实现方式来看,一种较为改革性而另一种较为保守,但是从根本上来看,EDL跟Avamar是一个互补,Avamar是在源端进行重复数据删除,EDL是在后端(目标端)进行重复数据删除,但问题是:为何重复数据删除比率相差30倍之多?

首先,从技术上来说,按照检查重复数据的算法不同,重复数据删除可以分为对象(文件)级和块级的重复数据删除,对象级的重复数据删除保证文件不重复;块级重复数据删除则将文件分成数据块进行比较,根据划分数据块的不同方法,又可分为定长块和变长块的重复数据删除技术。变长块的方法可以"斤斤计较"地把每一个重复的字节都删掉,重复删除率最高;定长块的技术只能大致地把相同的数据块去掉,删除率次之–Avamar恰恰是属于变长块重复数据删除技术,而另一方面,Avamar还有另一套的"办法"。

"Avamar是一种智能的重复数据删除技术,Avamar会识别应用,或者说,它是应用可知的,我们认为如果不知道应用的话,去除会比较差,但是Avamar不同。"黄斌表示,Avamar能够识别大量的主流应用,其中包括Oracle数据库、各种文档格式(如Word、Excel、PowerPoint文档格式。)。在Avamar备份服务器的操作过程中,软件程序将识别不同文档格式内的数据段,如果之前已经备份过某些数据段,将不会再次备份这些数据段,从而达到更高的删除比,用这位技术顾问的话来说就是"Avamar可以深入到应用程序中来进行重复数据删除"。

在增加了重复数据删除技术之外,EMC还在其产品中增加了基于软件的Spin down磁盘降速等技术,以试图减少磁盘存储系统的高额能耗,与此同时,在VMware环境中,EMC也将持续的进行优化存储的工作,不过,对于重复数据删除技术未来是否会用在主存储上这个命题,黄斌表示"用户会考虑成本增加和数据减少的成本效益。"因为,主存储大部分是面向交易应用的,对性能敏感,他个人则对此并不十分看好。

对于重复数据删除技术是否会降低用户的硬件采购量,曹晖则显得很轻松,他说道,"潮流是挡不住的,顺应潮流会获取更多。" EMC大中华区市场及渠道战略总监梅敏玲女士表示,EMC中国一直高度重视BuRA市场以及存储软件业务,并对此充满信心。2007年3月,EMC发布中国业务五年计划,提出了包括保持备份恢复归档市场第一、软件业务每年翻番在内的目标。2007年的目标已经成功实现,2008年,"保持第一"和"软件翻番"仍然是EMC中国的两个关键任务。

而借着今年二季度在备份恢复方案中全面引入重复数据删除技术,推出EMC Disk Library 3D 1500/3000,EMC Disk Library 4000, EMC Avamar Data Store二代和EMC Avamar 4.0东风,使EMC拥有了最完整的重复数据删除技术支持的备份恢复解决方案,成为能够提供从软件到硬件整体解决方案的供应商。梅敏玲相信,这不仅巩固了EMC在备份恢复方面的领导优势,更为EMC今年的成长带来诸多机会。