EMC Hadoop策略:以MapR技术改善HDFS

DOSTOR存储在线 5月27日国际报道:位于加州San Jose的存储初始公司MapR为Hadoop分布式文件系统提供高性能存储。该公司将为EMC将推出的Greenplum HD企业版Hadoop提供存储组件。这两家公司的联合有助于EMC区别于其他Hadoop厂商,并为MapR的技术增加可信度和一个强有力的分销渠道。

这两家公司今天的授权许可新闻发布证实了我的猜测。EMC在本月初发布了它的Hadoop计划,当时MapR首席执行官John Schroeder参加了EMC大会,并且EMC描述的一系列企业版本功能非常相似于MapR所提供的功能。

Hadoop是一个Apache软件基金会项目,包含一系列用于存储和处理大量非结构化数据的工具集。其中两个核心组件是用于存储数据的Hadoop Distributed File System(Hadoop分布式文件系统)和用于写入并行处理任务的Hadoop MapReduce.

EMC的Hadoop策略实际上非常独特。EMC采用MapR的存储有力地证明了这一点。在进入Hadoop领域的时候,EMC深知现有版本HDFS的缺点,因此EMC希望有一个存储层能够在性能、可用性和使用的便利性上提升HDFS.EMC本来可以加强它的Isilon集群式文件系统或发动它庞大的工程师资源来改善HDFS,不过EMC最后还是看中了MapR的存储。

EMC Hadoop的另一个独特之处在于它没有采用官方版本的Apache代码,而是采用Facebook的Hadoop代码,后者在可扩展性和多站点部署上进行了优化。

商业Hadoop的先驱Cloudera也不甘示弱,于昨天发布了自己的HDFS合作伙伴计划。Cloudera Hadoop的用户现在可以使用RainStor的数据保留系统来改善HDFS,获得数据压缩、重复数据删除和合规功能。RainStor声称它可以将HDFS卷的大小减少97%并同时提供“内置安全性、审计追踪、高粒度的保留和过期策略来管理所存储数据的生命周期”.此外,客户还可以通过标准接口(比如SQL)来访问RainStor所存储的数据。

EMC和Cloudera在以各自不同的方式来改善用户对HDFS的体验。不过EMC没有参与Apache Hadoop项目,因此EMC可以利用MapR的高可用性、高性能和先进功能(比如镜像和复制)来满足企业级需求。另一方面,Cloudera是Apache Hadoop项目的主要参与者之一,因此只能将Apache官方采用的功能加入到HDFS.不过,Cloudera可以通过各种合作伙伴关系,比如和RainStor的合作,在改善HDFS体验的同时又不影响它在开源Apache Hadoop代码上的改进。

有人说Cloudera方式的主要好处是它是开源的,也就是说愿意等待HDFS改进的客户不必为这种改进花钱。EMC的Greenplum HD企业版本Hadoop采用MapR技术,则会向客户收钱。

随着各大主流公司对Hadoop的兴趣与日俱增,Hadoop厂商之间的争夺将更加激烈。无论是像Cloudera那样主要依赖Apache Hadoop代码的方式还是像EMC这样不依赖Apache Hadoop代码的方式,厂商们都需要向潜在客户显示他们满足现实世界需求的能力。现在的Hadoop产品还花不了多少钱,不过所有迹象都显示这种情况持续不了多久,到时我们就能知道哪种方式最给力了。