没有社区版,Cloudera CDP还算开源吗?

开源、社区版、商业版、订阅服务……,这是我们对开源世界的理解。对于用户来说,社区版就是开源版本,适合爱好者使用,将社区版付诸商业使用,需要克服各种影响稳定性、可靠性的Bug(错误),修补这些Bug,或者自己动手,或者求助社区的力量。

针对社区版的不足,开源厂商会提供商业版,商业版以开源版本为基础,修补各种Bug,付诸商业使用,在稳定性、可靠性方面更具有保障。商业版修补Bug的程序,并不对外开源。所以选择商业版相当于购买服务,订阅服务则是一种商业收费的方法。

在开源的世界中,社区版和商业版如影随形。但是到了Cloudera CDP,这个规矩就被打破了,CDP没有对应的社区版可供选择?没有了社区版的CDP,还算是开源软件吗?

先给出答案:CDP是开源软件。

从大数据说起

Cloudera和Hortonworks是大数据领域两个主要的开源厂商,Cloudera提供的产品是CDH(Cloudera’s Distribution Including Apache Hadoop)、Hortonworks的产品是HDP(Hortonworks Data Platform)。

2018年10月,Cloudera和Hortonworks宣布平等合并,合并之后的产品就是CDP,CDP不提供社区版,与此同时,公司宣布会陆续停止对于CDH、HDP社区版本的更新,给人的感觉就是逼迫用户升级到CDP。

既然如此,为什么说CDP仍然是开源软件呢?

在不久前对Cloudera大中华区区域副总裁王刚、Cloudera大中华区技术总监刘隶放的采访中获悉,很多企业级用户对此持欢迎的态度。此前CDH、HDP既提供了社区版,也提供了商业版,但是从商业上,并不完全成功,这也导致了Cloudera、Hortonworks公司合并。痛定思痛,CDP不在提供社区版服务,并得到了企业级用户的欢迎。

“很多企业领导搞不清楚,既然有免费的版本存在,为什么还要花钱买商业版。”有用户说。

CDP是要走闭源的思路吗?答案是否定的。

原因也很简单,这就要搞清楚CDP是什么?CDP并不是一个特点的产品,而是一组大数据开源软件的组合,如Hive、HBase、Cassandra、Impala、Flink、Spark、Flume、Ranger等20多个开源软件。这些组件都是开源的,Cloudera也不断支持各个开源软件社区发展。

CDP (Cloudera Data Platform) 是一个面向IT、业务大数据平台,可支持公有云平台,也可构建私有云平台,付诸元数据管理、安全、加密等治理手段,可以实现混合云数据应用,这也是为什么Cloudera自称混合云服务提供商的原因。

需要稍加说明的是,这里的混合云不是针对IaaS,而是针对上层的数据创新应用,不要混为一谈。

对比数据中台和智能湖仓

就像武林有宗派分别一样,目前数据市场市场可以大致分为数据中台、大数据、智能湖仓等生态,每个生态都有自己的开发者拥趸粉丝。

与其他技术方案相比,大数据平台有什么优势吗?

刘隶放表示会:所谓数据中台,其实就是一种数据治理,考虑到业务中台,数据中台可以做的事情,可能更高一些,业务中台对应数据中台,数据中台服务于业务中台,大致是这样的一种思想。

目前“数据治理”经常是要一把手工程,从零开始,强调业务、数据要解耦,这是数据中台的初衷!如今,CDP平台上提供有源数据治理工具,有SDX组件能够帮助数据治理,这是很好契合点。

对于智能湖仓,刘隶放表示:智能湖仓主要由数据湖、数据仓库两部分组成,其中,数据仓库是把原来平台的数据拿出来,经过加工成为数据仓库用的数据模型,数据会有一些转换;相比,数据湖是把数据从外面“捞”进来,呈现一种原生态形式的存在,如果能够提供比较好的算力,就可以输出数据分析的结果,虽然没有像数据仓库这样,可以基于精简模型输出结果,但也可以忍受的时间内。

从现有市场应用的规模看,如果数据仓库服务器的用量是数百台,那么大数据分析平台集群规模会达到数千台,这意味着90%数据其实是在大数据平台,几乎是企业全量数据,因此规模上的区分,会决定未来不同技术未来的走向。

小结

各种技术之间并不是泾渭分明的存在,而是一种你中有我,我中有你的现状。从产品形态看,有开源产品形式,也有云服务的形式,并且产品和云服务也存在转换,Cloudera可以服务混合云,公有云也可以进行私有化部署,但是无论如何,他们都服务于同一个目标,数据创新。

不管黑猫白猫,抓住耗子就是好猫!