Pivotal为广大用户带来Hadoop发行版

作为由VMware与EMC共同创立的后起之秀,Pivotal正努力面向未来打造应用程序平台,并在近日推出了其第一款基于Hadoop大数据处理工具的产品。
这款新产品被称为Pivotal HD,也就是Pivotal Hadoop发行版的缩写。这款1.0版本将以相对低廉的价格与辅助插件共同为用户带来合约支持,成为Hadoop阵营的又一颗新星。
从技术角度讲,这已经不是磁盘阵列制造商与软件供应商EMC公司第一次推出Hadoop发行版了。随着几年前该公司完成了对Grrenplum并行数据库与相关数据仓储设备的收购,EMC成功将MapR技术与经过重新设计及品牌包装的Greenplum HD衍生方案相结合。
不过随着Pivotal HD 1.0版本的发布,我们看到EMC与VMware将关注重点再次集中在Apache Hadoop身上,将其2.0代码作为Pivotal HD 1.0的创建基础。
具体说来,Pivotal HD中包含着Hadoop 2.0.2软件核心,即利用原有MapReduce 1.0算法与新增YARN 2.0算法共同负责服务器集群端的数据交付与处理任务,而这一切都以Hadoop分布式文件系统(简称HDFS)为基础。
所谓YARN(也就是众所周知的MapReduce 2.0)层允许Hadoop框架载入其它各类算法,并对整套集群进行分散与收集处理。
Pivotal HD的社区版作为免费发行并拥有社区支持的版本,包含有HBase 0.94.2列式数据库、Hive 0.9.1 SQL查询引擎、Mahout 0.8.0机器学习层以及Pig 0.10.0脚本语言等组件。Flume 1.3.1日志收集工具与Sqoop 1.4.2数据交换工具也是该社区版本的重要组成部分。
Pivotal HD企业版则加入了Spring Java框架(由VMware提供)以及名为Serengeti的Hadoop虚拟化扩展项目。企业版还拥有一套用于从其它来源将数据导入HDFS的数据载入器及一项基于HDFS的统一化存储服务。Pivotal Command Center也是企业版中的一员,且与之前提到的各组件一样由Pivotal自家开发。
HAWQ分布式SQL查询引擎通过HDFS与Greenplum并行数据库的结合实现智能化特性,因此能够流畅地与SQL进行交互并充当企业版的一款在售插件。(我们意识到El Reg网站对于HAWQ的定义过于单纯化。)
Pivotal HD Hadoop堆栈的不同版本与插件
HAWQ是一种实时查询语言并被用于代替Hive,它使用类SQL查询并将其划入MapReduce批量任务。HAWQ与Cloudera CDH4发行版中的Impala数据库层也存在竞争关系,而经过加速的HBase功能也是MapR M7发行版中的组成部分。
在针对Pivotal HD 1.0发布撰写的博文中,Pivotal公司Hadoop堆栈产品战略与前景部门负责人Saravana Krishnamurthy解释称,目前有三套Hadoop代码软件包可供选择:前面提到的社区版、企业版以及名为Pivotal单节点(Single Node)的版本。
社区版提供免费下载,大家可以将其融入产品并利用社区网络支持构建起最多拥有50个节点的集群。(目前我们还不清楚用户是否需要购买技术支持合约或者进行付费升级。)
企业版则集万千宠爱于一身,不过用户需要支付费用——每个服务器节点每年的社区支持费用为1000美元。相比之下,Hortonworks开出的每个集群(至少由十个节点构成)要价12000美元显得不够厚道,Cloudera与MapR在各自版本中开出的单节点4000美元到5000美元的价格更是有些夸张。(两者的定价都有些模糊,且各个版本之间的功能集也并不一致。)当然,大家也可以直接购买企业版终身使用权,但Pivotal并未披露其具体售价。
HAWQ为HDFS提供的SQL数据库查询层与Pivotal HD企业版一样以节点为基础进行计费,不过Pivotal同样没有泄露具体价格。我们很难估量Pivotal将如何为这项功能制定计费标准,但同类关系型数据库往往每个计算核心都要求用户支付数万美元。如果确定以每台服务器节点作为基础,则盈利空间也将至少达到数千乃至数万美元。
如果硬要El Reg网站存储频道做出判断,我们认为如果数据仓储的价格为每TB 20000美元而仅搭配HDFS与HBase的原始Hadoop集群每TB要价500美元,则Pivotal可能会以HAWQ作为计费分界线,并为此开出10000美元每TB的价位。
如果大家采用搭配12块3TB磁盘驱动器的惠普DL380e Gen8服务器节点,那么整体数据容量将达到36TB。根据前面得到的结论,每TB 10000美元的定价意味着用户将需要在这台节点设备身上花掉360000美元。这样的要价听起来好像是穷疯了,但如果与IBM及甲骨文在关系类数据库的企业版本中开出的价格相比较,以上数字还算可以接受。不过在双插槽服务器方面,其实际支出又会大幅提升。
问题的关键是,排除价格因素,Pivotal真正出售的并非Hadoop支持而是HAWQ数据库层。这家年轻的企业显然不希望走上低调上市、后期涨价的道路。
相反,Pivotal公司希望将HAWQ定位为特定领域的关系类数据库替代方案,并希望以竞争对手的售价以及市场承受能力作为基础参考。不过最后的结果很可能是主流客户根本不会为任何其它方案掏出与关系类数据库同级别的资金投入,甚至连打个对折都不会考虑。HAWQ最终将不得不尝试按量计费的方针,正如Linux与MySQl一样。
而且如果Pivotal对于HAWQ的定价过高,企业用户将很可能转而投向Impala项目怀抱甚至选择自主研发方案(这要看Cloudera给Impala开出怎样的社区支持价码)。可以说目前Hadoop的类SQL或SQL查询层方面进入了价格竞低的时代,哪家厂商敢于开出业界最低的价位、他们就将掌握该领域的阶段性定价权。
不过目前还没人急于探询价格底限——除了Hadoop客户自己。