EMC推Storage4.0:全面认识DataDomain技术

DOSTOR原创报道: 五年以前,EMC提出其在备份、恢复和归档领域的BuRA()理念,其中包括DL系列虚拟磁带库、支持重复数据删除技术的Avamar、备份和恢复软件NetWorker、持续数据保护软件RecoverPoint以及面向归档的对象存储系统Centera。

三年以前,EMC以BuRA强势切入中国的备份恢复解决方案市场,这一包括了BACKUP(备份)RECOVERY(恢复)和ARCHIVE(归档)的整套解决方案,虽然当时BuRA的各个产品分数不同的部门,但是,这一整体解决方案和“打包”概念的提出,着实让EMC在过去在BuRA上尝到了甜头——如果说这也是一种“端到端”的解决方案,那么,EMC正是以BuRA迎合了当初ILM(生命周期管理)的热潮。

现在,EMC在收购DataDomain之后,将公司的体系架构做了不小的改变,整合EMC DataDomain、Avamar、NetWorker以及DL磁盘库建立了新的BRS部门——B代表Backup、R代表Recovery、S代表System——EMC备份恢复系统部,在将归档的概念回归到“更好的对数据加以分析和利用”的原本用途而非长期保存之后,Centera也回归到了归档系统的本源,因此,在新的BRS部门中,备份、恢复、重复数据删除以及相应的系统设备组成了新的解决方案。

未来,EMC总裁兼首席执行官乔图斯认为,纵观整个EMC公司,他期望“增长最快的部门是备份与恢复系统部 — 尤其是Data Domain 和 Avamar技术”。而随着EMC在将传统的备份恢复应用转变为“在线备份恢复和应用”服务于在线业务系统,并整合DataDomain的重复数据删除技术及较高的系统性能,EMC的BRS部门实际上与此前的BuRA相比,更加贴近主存储应用,而非传统意义上远离在线业务的备份恢复与归档应用。

在4月中旬举行的EMC BRS部门成立以来的第一次中国媒体发布会上,履新的EMC备份恢复系统部大中华区总经理蔡志刚表示,“BuRA没有了”,取而代之的,是EMC的BRS部门以及这个部门所提出的“Storage 4.0”概念,他表示,作为“标准功能”的重复数据删除技术将是Storage4.0的核心。

梅敏玲表示,2009年EMC中国区的增长点主要在固态硬盘、重复数据删除和虚拟化方面,行业方面,除传统的SMB、电信、政府、医疗、教育和交通外,EMC首次进入国家电网。目前,EMC在全国的二级渠道已经如愿以偿的达到1200家,中国区仍然“保持了两位数的增长。”

EMC产品线整合 部门调整

据EMC大中华区市场及渠道策略总监梅敏玲表示,在原英特尔高管帕特基辛格加盟EMC之后,EMC的组织架构进行了很大的调整,现在EMC包括管理Symmetrix和V-Max的高端存储部门,管理Avamar、DataDomain产品、NetWorker和DL磁盘库的备份恢复系统部门,以及整合现有磁盘系统CLARiiON、Celerra以及刚刚从BuRA解决方案中脱离出来的Centera产品的统一存储部门。

在提及此前与昆腾、戴尔在重复数据删除技术领域的合作时,梅敏玲提到,EMC与昆腾的合作已经停止,与戴尔公司则主要是OEM DataDomain存储系统的合作关系。

此外,梅敏玲表示,在今年5月,EMC将发布更多的虚拟存储产品,而存储部门的正式调整届时也会宣布。

BRS部门现在所负责的产品,看得出已经不包括Centera,EMC现在的理念认为,备份应该与主存储更贴近,是“应急”而非“保护”,归档是面向长期查询和BI的应用

蔡志刚表示,EMC BRS部门提供综合数据保护解决方案,从重复数据删除技术的文件系统、服务器恢复与灾难恢复、远程站点实时监控、重复数据删除存储系统、虚拟磁带库、快照持续数据保护和复制、磁盘与磁带的保护以及云技术,都将围绕BRS部门展开。

EMC备份恢复系统部大中华区总经理蔡志刚

备份变革:重复数据删除定义Storage 4.0

蔡志刚在演讲中表示,以磁盘为中心的备份与恢复架构正在大范围取代传统的以磁带为中心的备份和容灾管理,EMC的DataDomain、Avamar和Data Protection Advisor等结合,已经能够更高级别的容灾数据存储。

他指出,随着磁盘备份技术的普及和用户对备份需求的改变,原有的备份概念已经从“保留数据,以防万一”变成了主存储之外的二级存储,DataDomain作为一种“具有重复数据删除的二级存储”正在成为数据中心内一种不同以往的在线存储系统,直接服务于企业的业务数据需求。

蔡志刚将备份恢复和归档基于磁盘实现,主存储仍然使用昂贵的高速硬盘的存储时代成为Storage 3.0,他认为,随着重复数据删除技术的成熟,和具有此功能的二级存储系统性能的提升,这些系统完全有能力成为速度较慢的位居“二线”的在线系统,取代原有的昂贵的大规模的在线存储,而原有的需要高速主存储的一小部分数据,将存储在采用闪存技术的主存储系统中,“其余是均采用重复数据删除磁盘技术”的“重复数据删除二级存储”。

显然,在Storage 4.0中,重复数据删除技术将是其中的重点,蔡志刚表示,结合EMC的源端重复数据删除产品Avamar和目标段重复数据删除产品DataDomain系列,EMC能够大幅度的削减不同领域的用户的冗余数据,“重复数据删除需求仍然强劲, 这与这项技术为客户带来的显著成本节约是一致的。”他认为,两项不同的重复数据删除技术产品,能够确保EMC BRS部门在重复数据删除领域的领导地位,而这也就意味着,EMC将在Storage 4.0时代获得明显的领先优势。

从Storage 1.0到Storage 4.0的演变

此外,蔡志刚在Storage 4.0的架构中,也彻底去掉了磁带系统,他表示,在结合了EMC领先的重复数据删除技术磁盘存储技术之后,磁盘备份和归档将是不可阻挡的趋势。

“确立在综合备份与恢复解决方案方面更大的领先优势。”蔡志刚表示,EMC仍然在努力保持在备份与恢复领域的领先地位,包括重复数据删除软件和存储系统、虚拟磁带库和备份软件。BRS部门将在“为用户提供最先进的备份与恢复解决方案。”

在媒体发布会上,EMC备份恢复系统部大中华区技术经理魏燕则详细介绍了DataDomain产品的技术细节,以及在被收购后在EMC众多产品和BRS部门的位置,当然,还包括相应的产品更新。

与备份软件加强整合

在EMC的重复数据删除技术蓝图中,Avamar和DataDomain被赋予不同的工作目标,Avamar更侧重于源端,更偏向在VMware虚拟化环境、备份服务器、在线复制等应用领域,其最新的进展是EMC将Avamar推进到了桌面和移动办公领域;DataDomain的工作则更多的侧重在目标端,即业务系统后端所连接的存储、备份和归档、容灾设备。

魏燕表示,目前DataDomain已经能够在包括EMC、赛门铁克、CommVault、IBM Tivoli、BakBone和vizioncore的环境下满足备份恢复到DataDomain系统时的重复数据删除功能。

由于OST所带来的出色性能,DataDomain对OST的支持十分积极,而对于新的GDA系统来说,全局重复数据删除和命名空间,极大的提升了DataDomain在更大规模数据存储环境下的竞争力。

不过,在谈到DataDomain最新推出的全局重复数据删除阵列GDA时,魏燕承认,目前GDA的全局重复数据删除支持最好的仍然是赛门铁克的NBU和BE,“在发布之前,Data Domain已经支持OST(赛门铁克OpenStorage技术(OST))很长时间了。所以最开始做第一个合作肯定是选最成熟的。”他表示,由于OST的性能很好且设计初衷就是为了以高性能进行数据备份,因此,目前DataDomain全局重复数据删除阵列GDA与赛门铁克的OST技术配合,能够提高LAN备份性能至少30%。

DataDomain三项技术亮点

在重复数据删除技术中,有一个有关性能和重复数据删除比率的博弈:如果数据段划分得太大,找到相同数据段的概率低,则数据压缩率不高。如果数据段划分得太小,找到相同数据段的概率高,但是计算和比较的工作量比较大。

如图所示,可变长能够减少更多的重复数据。在大多数情况下,越小的数据块和可变长,能够尽可能地减少如上图这样只修改数据中很小部分所造成的重复存储。

“经过研究,Data Domain提出可以智能化可变长,数据段长度越短,数据的重复率就越高,数据段越长重复率就越低。但重复段越短,管理的数据量就会呈现指数增加,会使系统性能增加,因此最后优化到4K-12K之间,作为可变长度。在这样一些特定的例子里,把长度由原来的4K变成6K或者8K,使绝大多数数据具备相同的内容,这样的内容就可以被忽略掉,因为是重复性的数据。”魏燕谈到

得益于采用经过验证的的可变长数据块划分技术,DataDomain的重复数据删除性能效果已经得到了许多用户的认可,而DataDomain也在数据压缩率和系统的计算量之间找到了一个比较好的平衡点。

DataDomain的Inline模式,与传统的Post Process方式相比,inline模式不需要完整的存储备份,或是将每次备份的数据以完整的大小存入,这一点在进行全备份的时候尤其具有优势,能够大幅度减少存储系统应对全备份时所需要的大容量

而对于如何减少重复数据删除系统所需配置的存储容量并加快重复数据删除速度,魏燕表示,DataDomain利用的是“Inline”的模式:这是一种类似“带内处理”的模式,备份数据流进入DataDomain的设备之后,进行可变长的分段、切割、计算,将重复的数据删掉,而不是保存。这些步骤都在数据流进入系统,还没有进入到盘上之前的进入过程中(边处理边保存)处理。

同时,基于SSL架构的Data Domain系统,通过特殊的算法,使得在内存中就能识别出99%的新数据段,只有对剩下的数据段才需要读取磁盘,从而大大减少磁盘读取次数??它读取磁盘时,会根据特殊的算法,每次读取一批数据缓存起来,这使得多数查找都能在缓存中进行。同时,它在写磁盘时,就将相关的数据段和指纹封装保存在一起。这样,每次可以读取更多数据,而且读到的数据更有效,进一步减少磁盘读取次数。

“一边已经存了100个数据,现在进来第101个数据,我首先跟这100个数据比较,是否一样,如果一样这个数据我就不存了。”魏燕形象的介绍了DataDomain的处理方式,他表示,当数据流入到DataDomain,inline的方式下处理器接管数据,但第一件事不是存储数据到磁盘,而是利用可变长分段切分数据与内存中此前已经通过算法缓存出来的数据进行比较,检测是否有所重复,“”如果不是重复数据,才会写入系统。

但唯一的问题是,虽然重复数据删除过程只有一次IO,但由于大量的处理,其在过程中异常耗费CPU??魏燕提到,这与DataDomain的团队当初设计系统时的理念有关:从一开始,之前从事算法设计和优化的团队就制定了以多核系统并行处理的架构,“高性能来自于以CPU为核心的技术手段”魏燕表示,而有关DataDomain在多核架构上的详情,在此前采访DataDomain创始人李凯时我们已详尽报道。

七十二变:DataDomain的不同身份

针对市场上仍然对DataDomain系统所存在的误解,魏燕表示,DataDomain的系统仅仅是一个重复数据删除设备,同时拥有存储容量,而非单一就是VTL、NAS或是别的什么。

“Data Domain的技术人员不是搞计算机的,而是搞高性能计算的。他们是基于哈希算法研发出的,所以它是业界做重复数据删除的鼻祖,它的系统跟别人不一样的地方是上来首先是做重复数据删除,然后再说别的对象。”魏燕认为,因此Data Domain做了很长时间做算法,至于说包装成什么样的产品倒是件很容易的事情。

他指出,DataDomain首先推出NAS设备是由于NAS是最容易包装,且接口简单的设备,在系统方面无需作出太多变化,因此“成为业界第一个具备重复数据删除功能的NAS”,而此后,基于此设计出了VTL,“VTL跟NAS只是表现形式的变化,Data Domain不在乎这个,只是延用别人的标准。”他表示,“之前大家误认为,Data Domain的VTL具备重复数据删除功能,(但其实)Data Domain是具备重复数据删除的VTL。”

魏燕表示,无论是NAS、VTL、灾备系统还是归档系统或是“重复数据删除二级存储”,都只是DataDomain设备的表象,“Data Domain的核心是做重复数据删除”做成什么系统,其实都是其次。

此外,魏燕透露,DataDomain现在已经支持IBM主机和AS400系统,并推出了新的全局数据删除系统GDA和新的高端型号DD880。

GDA相比DD880在逻辑容量、可用容量等方面都有了一倍的提升,但性能却提升超过一倍,魏燕表示,“同一个作业进如DataDomain系统,分布在两个不同的服务端进行重复数据删除处理,其速度肯定是1+1>2,同时,等待队列的时间更短。

其中,GDA是目前最大最快inline速度的重复数据删除系统,支持全局重复数据删除和全局命名空间,并如上文所说,支持赛门铁克的NBU和BE OpenStorage技术(OST)。DD880则将此前DD690系统的最大容量从71TB增长到了142.5TB。此外,随之发布的还有DataDomain的加密软件选项、远程复制拓扑(One-to-many Directory Replication)以及面向小型站点的远程数据复制新特性低带宽优化技术。

远程复制拓扑(One-to-many Directory Replication)技术的发布使得DataDomain系统能够在容灾领域上获得更好的利用,这是在原有的复制和备份功能上新增的选项,用户能够复制同一个目录到多个远程的DataDomain系统,同时支持多数据流优化,使得吞吐量达到最大化。

魏燕表示,这将帮助DataDomain在多个容灾站点保留多份拷贝,进一步加强数据保护增加数据,同时允许数据分布在多个站点用于多种用途。此外,需要注意的是,当生产系统和备份、容灾系统进行数据同步时,备份数据在传输过程中传送的是Data Domain处理过的唯一数据段,即使被截获,也无法辩知数据内容,安全性较好。Data Domain的数据防损架构可以贯穿备份点和容灾点之间,确保数据的可靠性。

“备份的目的是发生故障或者异常情况的时候,保证系统的正常运行。”魏燕表示,虽然DataDomain的系统不是在线存储,但是其地位却同等重要,而这也就是备份和归档不同的地方,他表示,备份是要在需要时能够马上用得上,甚至顶上去的,但归档不同。

“归档是少花钱多办事,要更充分地利用价格昂贵的存储资源”,它的目标不是把东西扔在那儿就不管了,而是指需要在线查询的时候都能查到,“归档的真正应用就是在线查询,历史数据查询。”不过,魏燕幽默的表示,DataDomain的设备也能够做归档:“对于Data Domain来讲,进到我这儿的东西无论是什么,都要进行重复数据删除,所以叫‘全局重复数据删除’。”