戴尔DR4000:数据保护的全新选择

DOSTOR存储在线 2月10日原创报道: 戴尔宣称,DELL DR4000为“客户提供了一个带有重复数据删除和压缩功能的D2D备份解决方案,”且重复数据删除比率多达15倍。这也是戴尔首度将Ocarina的重复数据删除技术融入到其新推出的存储产品中来。

但这并不是戴尔的第一款入门级磁盘备份产品,在推出DELL DR4000之前,戴尔与CommVault和赛门铁克合作,向用户提供基于虚拟磁带库技术的PowerVault DL解决方案,而其中的重复数据删除功能,来自CommVault和赛门铁克这两家软件供应商所提供的软件功能。

在结束与EMC的合作之后,戴尔在具有重复数据删除技术的D2D磁盘备份系统上出现了短暂的空当——很多人更愿意将 “D2D(Disk to Disk )磁盘备份系统”称之为真正意义上的磁盘备份解决方案。当然,从某种意义上来说,PowerVault DL也是一种“具有重复数据删除技术的磁盘备份解决方案”。

戴尔此前在DD140、DD610和DD630产品中采用EMC Data Domain的重复数据删除删除磁盘备份系统,2011年10月戴尔和EMC结束长达十年的合作之后,合作的停止是全面的、彻底的,这意味着不仅包括AX4、CX4,也同样包括DataDomain系统,因此双方在D2D磁盘备份系统上的合作同样宣告结束。在当月,戴尔发布了采用Ocarina数据压缩技术的DX6000G系统,这是对戴尔旗下DX6000对象存储产品线的一个补充,也是对Ocarina重复数据删除和数据压缩技术的首次试炼。

虽然戴尔在此前曾经表示过,将把Ocarina的数据精简技术应用到整个戴尔的存储产品线中,而PowerVault DL产品线曾经被提及会是早期受益的产品之一,但是戴尔最终还是决定发布一款全新的D2D磁盘备份系统,具有重复数据删除,可以横向扩展,拥有200TB以下的可用容量,不高的价格及总体拥有成本,DR4000有益的补充了戴尔磁盘备份产品线——PowerVault DL与DR4000形成了大部分主流存储厂商的“双线架构”——虚拟磁带库(VTL)与D2D磁盘备份系统。

磁盘备份系统在过去几年被热炒,EMC与NetApp针对DataDomain的收购案让这个市场的受关注程度达到了巅峰,而直接磁盘备份的理念——而不是传统的、模仿磁带的VTL——也开始为用户所熟知并快速接受:新一代的基于重复数据删除的磁盘备份系统优势明显,无论是性能还是可靠性、可管理性,无论是与磁带还是VTL相比,都有较大的优势,而随着这几年磁盘价格的下降、重复数据删除技术带来的数据精简以及一些绿色节能技术的使用,磁盘备份系统在总体拥有成本上的一些劣势也逐渐被弥补。

因此,从完善产品线、补充流动数据理念、提高备份恢复与灾难备份能力的角度来看,DR4000的推出顺理成章,而通过对Ocarina技术的融会贯通,DR4000的推出也会非常简单,所以自去年11月开始,业界就一直不断的在传播有关于此的传闻,而大部分国外的媒体报道也确实都十分精确的提到了未来产品的容量、重复数据删除比和相关的一些数据。

DELL DR4000

但这并未意味着DELL DR4000就毫无潜力可挖。就DR4000自身而言,重复数据删除技术是其核心(与大多数D2D磁盘备份系统一样,DR4000也是采用的标准X86架构服务器为硬件平台),其集成的Ocarina技术到底有什么优势,能够为DR4000带来哪些优势?DR4000在戴尔的D2D磁盘备份系统产品线中又占有什么地位?DR4000除了是D2D磁盘备份系统之外,还蕴藏着哪些戴尔对Ocarina和DR产品线的期待?

为解答这些问题,在DR4000正式在中国发布之前,DOSTOR采访了戴尔亚太及日本地区产品市场部高级产品经理林佑声和戴尔大中华区消费及中小企业市场部高级产品经理马轶霏,了解了戴尔推出DR4000的台前幕后。

戴尔涉足D2D:DR4000初览

作为一款D2D磁盘备份系统,重复数据删除技术是DR4000的标配:DR4000的有效存储容量共有35TB、70TB和130TB三种,支持在线重复数据删除(inline deduplication)和压缩、重删数据复制(deduplicated replication)、高级数据保护和不中断部署,当然,与主流备份软件应用的认证已经基本都通过了。

而作为戴尔第一款D2D磁盘备份系统,戴尔给出的DR4000礼包当然不仅仅是这些,据林佑声表示,DR4000中提供了完整的、无所不含的软件许可模式——“值得一提的是,DR4000的软件模式跟EqualLogic一样,买了硬件设备以后,里面的软件,OMC的功能、升级的功能都是全部包含的。”(事实上,在戴尔英文官网上,DR4000的正式名称是:Dell DR4000 deduplication and compression backup appliance,Appliance显然颇有深意。)

林佑声表示,戴尔为DR4000提供了与EqualLogic相同的“软硬件打包”的产品形态。戴尔支持客户在无需支付额外许可费用的前提下充分利用DR4000当前及未来的所有产品功能,进而随着时间的推移逐步降低存储成本。

PowerEdge R510是DR4000的硬件基础,作为一款支持英特尔至强5500处理器的双插槽2U服务器,R510最大提供32GB内存,能够为DR4000的在线重复数据删除(inline deduplication)提供强劲的性能,而林佑声表示,DR4000虽然目前没有发布横向扩展的功能,但是在未来,DR4000的升级很可能将包括横向扩展的能力——当然,我们也不能够排除DR4000未来推出更高端型号的可能,从DELL EqualLogic的4100产品线和6100产品线的发布情况来看,未来的产品被称作DR6000的可能性极大。

DR4000的基本硬件规格

作为一款D2D磁盘备份系统,其核心当然是备份与恢复功能,当然,基于IP连接的DR4000同样可以支持远程备份恢复和灾难恢复等功能,我们都知道,压缩和重复数据删除都是减小备份数据集的有效技术,因此结合了重复数据删除技术的D2D磁盘备份系统是企业数据备份与恢复的良好载体。

据戴尔方面表示,DR4000拥有15:1的重复数据删除比率,但林佑声也表示,正如业界所普遍认可的,重复数据删除比率是一个比较弹性的话题,自然还是与需要重删的数据有关,但他表示,由于Ocarina的强劲技术,“DR4000的效果要比很多人想象的好”——这部分内容我们会在后面看到,现在还是继续看看DR4000本身。

林佑声表示,戴尔对于DR4000的功能,除了在中小企业和大型企业远程办公室进行数据备份与恢复,由于戴尔为DR4000的完全套装的许可授权中提供了远程复制软件,因此“支持三台DR4000设备的同步与数据的复制”,而且三台设备之间的复制与同步都是可以“远程实现的”。戴尔大中华区消费及中小企业市场部高级产品经理马轶霏认为,DR4000的远程同步与数据复制功能的提供,让DR4000不仅限于办公室或数据中心内的应用,而是可以实现“B2B2C”——Business(业务部门或远程办公室) to Business to Center(数据中心)——的功能,从而满足多地中心和分中心的数据保护。不过,由于DR4000只是初始版本,还只能支持三台设备,据林佑声讲,未来几个季度,戴尔“还会有容量和功能上的更新”。

从竞争角度来看,DataDomain的DD160有一个标准的40TB逻辑容量,而DD620提供83TB的逻辑容量。在Boost的帮助下,利用Symantec的OST来用媒介服务器预先处理备份数据流,160的数据吞吐率为1.1TB/小时,如果不用Boost的话,速率是667GB/小时。620使用Boost的话,速度可以达到2.4TB/小时,如果不使用Boost的话,速度是1.1TB/小时。所有的软件功能已经包含在基础价格内。

Quantum的DXi4500针对的是中小企业客户,它在NAS(网络附加存储)和赛门铁克OpenStorage(OST)上的重复数据删除速度都可以达到1.4TB/小时。DXi4510拥有2TB容量,而DXi4601的容量在4TB与12TB之间。

戴尔DR4000的速度比没有使用Boost的DD160更快,速度相当于使用Boost的DD160和未使用Boost的DD620。DR4000没有DXi5400那么快,不过它的基础容量比4510更大,相当于4601产品。

总的来说,戴尔将不断扩展DR4000产品(或是产品家族)的范围,提高速度和容量,覆盖规模更大的企业的要求,而且毫无疑问的是,支持远程办公室和分支办公室。此外,进一步的功能将通过固件升级来添加,这样现有用户就不用进行跳跃式升级来获得额外功能。

DR4000及其后续产品在整合灾难恢复、无需重建的数据迁移、WAN(广域网)优化功能上也应该会有更多建树,以及多到1的复制功能也不需用户花费很高的费用。DR4000还将有更多的ISV和合作伙伴整合,我们并不排除DR4000在Appliance方向上的进一步发展。

DR4000的灵魂:Ocarina重复数据删除

重复数据删除技术是D2D磁盘备份系统的灵魂所在,这一技术刚刚推出的时候,被认为主流是后处理技术——限于当时的处理器性能——这也无可非议,而在线处理(inline)被认为只属于大中型企业或是具有一定规模和高性能的系统的用户,但随着多核处理器性能的不断攀升,无论是DataDomain还是昆腾都开始涉足中小企业及远程办公室的D2D重复数据删除磁盘备份系统。

这一技术的实现原理无需多言——对于大多数企业来说重删原理并不是那么重要——但DR4000在线处理(inline)的方式很显然更适合中小型企业:后处理方式仍然需要至少等同于多次全备份的存储容量,而在线处理却可以有更小的基础容量可以选择。而对于在线处理可能造成的网络负载压力瞬时过大的问题,对于DR4000所覆盖的用户群体来说或许并不存在,毕竟其面对的用户的数据量不大,以太网的网络速度也能够达到10Gb,同时,磁盘备份系统多核处理器的在线处理性能也能够达到很高的水平。

对于戴尔的DR4000来说,在重复数据删除技术领域最大的用户疑问或许是这样的:戴尔的重删技术和DataDomain、昆腾有什么不同(在线处理技术上DataDomain和昆腾采用的技术是相同)?戴尔又能够在看起来业已成熟的重复数据删除技术上有什么新的花样?

回答这个问题,核心就在于Ocarina,它是戴尔DR4000的重复数据删除技术的灵魂,也是DR4000的灵魂,未来或许也会成为戴尔存储的灵魂。

Ocarina成立于2007年,戴尔于2010年7月将其收归旗下,在收购时,Ocarina公司CEO Murli Thirumale表示:“Ocarina是不同的,是远远领先于其他供应商的。”林佑声表示,Ocarina最大的特点,是“其对非结构化数据的处理能力。”

“我们非常希望从非结构化数据方面,能够提供给用户更优秀的产品,比如说我们基于EqualLogic的FS7500和PowerVault NX3500,Ocarina也是如此,都是面向非结构化数据的横向扩展架构的产品。”林佑声表示,Ocarina最大的特点,是对非结构化数据——不仅仅是文档和邮件——而是对于视频、图像和WEB上的非结构化文档,“都会提供不同处理方式下的压缩以及重复数据删除的能力”,因此可以帮助用户达到更好的非结构化数据的数据保护需求。

Ocarina的重点在于对非结构化数据,尤其是视频和图像的处理能力,这对于戴尔正在将结构化数据和非结构化数据,块存储和文件存储系统整合形成流动数据解决方案,在流动数据、大数据、互联网市场上获得优势至关重要——总的来说,重复数据删除在绝大多数情况下,都是面向块数据——结构化数据的,非结构化数据则主要是文件级的重复数据删除,而Ocarina正在突破这一界限。

虽然有关Ocarina技术的相关资料较少,但从公开获得的资料来看,Ocarina技术具有内容识别(content-aware)功能,因此它在处理JPEG文件方面特别有效,除此以外,Ocarina主要面向3个类型的数据:

•Microsoft Office files (Powerpoint, Word, Excel)

•Images and Video (JPEG, MPEG, tiff, GIF, PNG,)

•Compound Documents (email, html, web pages, PDF, ZIP, RAR, TAR)

据Ocarina一位工程师向DOSTOR介绍,Ocarina能够“对给出的文件以结构化的理解并使用100种不同算法来去处理”,而如果这一文件类型对于Ocarina是全新的,Ocarina会去推断信息的结构和内容性质,选择最有效的数据压缩或是重删算法。

而在被收购以前,Ocarina的数据精简技术被称为“Ocarina ECOsystem数据处理系统”,核心的组成部分不仅包括内容感知的数据压缩与重复数据删除算法,还包括为需要压缩和重删的数据制定最优运行时间效率的神经网络模型。据上述工程师表示,Ocarina的设计初衷是“将数据作为一产品来消费,重复数据删除的磁盘备份系统是有关数据的消费方式,而不是存储方式。”即,DR4000的重点在于对数据的处理,而不是保存。也就是说,戴尔肯定为DR4000选择了一个合理重删比,而非过度重删和压缩——虽然所需要的磁盘容量大幅减少——但重删数据在需要恢复时容易因此而出现的重建数据时间过长的问题。

戴尔流动数据架构重要一环:D2D磁盘备份

DR4000除了以最简单的方式使用——作为一个中间的D2D短期备份区域,从DR4000的名称上,实际上我们还能看出“DR”两字所代表的是Data Replication或是Disaster Recovery,据马轶霏表示,戴尔确实对DR4000有两方面的考虑:一是Data Replication,DR4000有足够的性能——在某些应用环境下——可能做数据复制甚至是当作二级存储使用;二是灾难恢复Disaster Recovery,这一功能与数据复制都是对现有戴尔流动数据解决方案的有益补充,让其拥有了远程数据复制和灾难恢复的能力——企业不可能租用昂贵的光纤链路,DR4000基于IP技术通过以太网实现了更低成本的远程灾备。

而无论是否局限在备份存储系统上,文件级重复数据删除技术都是非常成熟的,但是块级重复数据删除,尤其是在线快存储系统的重复数据删除,其实还走在起步阶段。而戴尔一直宣称将会在在线主存储系统上使用重复数据删除系统。

DR4000管理界面

对于戴尔来说,在整个流动数据解决方案架构中,实现统一化的块重复数据删除是困难的。

不同的戴尔存储平台上的数据模块的大小是不同的。在EqualLogic系统中,一个数据块的大小是15MB,而在Compellent系统中,数据模块的大小是不确定的。64位StorageCenter O/S将在模块水平上跟踪数据。一个数据块并非一个完整的文件,存储操作系统从原则上可以查出哪些文件是由哪些块组成的。将文件分割存储在磁盘中会增加数据的碎片程度。主存储器的块级重复数据删除功能必须能够解决这个问题。当然,块越大,在其中发现重复数据的概率越高。

正如我们所知,你会从页面上读取数据,对数据进行重复数据删除处理,然后将数据作为一个连续的数据流重新写回磁盘,而一旦新的重复数据删除检测算法和空间恢复算法被开发出来,戴尔就可以将它整合到EqualLogic 和Compellent的操作系统之中。这样一来,戴尔不仅在全系列存储系统上实现了重复数据删除,在某种意义上,当数据进入类似DR4000这样的D2D磁盘备份系统之后,戴尔也统一了其多个主存储系统后端备份恢复数据的结构。

这对于戴尔来说——如果以上想法得到实现——将会是显著受益的:戴尔现在拥有复杂且全面的产品线,而戴尔存储的核心价值观就是“流动数据”——数据只有被更格式化的、标准化的存储起来,才有可能顺畅的流动起来,而DR4000及其后续产品则完成了这一工作:让数据统一化、格式化和标准化,增强了戴尔流动数据架构的价值。

而据戴尔的工程师介绍,在2011年发布的戴尔流动数据规划中,实际上已经包含了重复数据删除技术和戴尔可扩展文件系统,并且会考虑应用在各个环节上,以及不同的设备上,也就是说,戴尔不仅会扩大统一存储和文件存储的产品线,同样会将重复数据删除加入到主存储等其他区域,更重要的是重复数据删除对数据的“格式化”作用将在戴尔得到体现——无论是私有云、公有云还是传统的数据中心,重复数据删除之后的数据,未来甚至有可能在不同的存储系统之间彼此互相传输。

马轶霏表示,戴尔已经看到,具有重复数据删除技术的D2D磁盘备份系统,能够提供更好可访问性和可靠性以及“规范化的格式”,更理想的是对数据增长有带来的成本增长所控制。因此,戴尔会在流动数据一环中逐步加强这一部分的实力:“现在DR4000的发布只是这个产品系列的第一个产品,也是一个重复数据删除市场的入门级产品,但是使用的技术和算法是先进的,和未来我们将要推出的更高端产品一样的。这样的技术我们要逐步加载到整个系统的各个环节,我们的愿景是客户今后能够以重复数据删除之后的文件格式通过文件存储系统接口直接传送到云端。”