容器为Cloudera Data Platform带来了诸多方面的优势

Cloudera是2008年成立的大数据分析公司,在许多人还不知道大数据和云计算的概念的时候,Cloudera就已经开始提供基于开源Hadoop的企业大数据服务了。2018年,在新的发展形势下,Cloudera与同样基于Hadoop的开源大数据公司Hortonworks宣布合并,开源大数据服务市场变天了。

近两年时间以来,Cloudera和Hortonworks在不断融合,也树立了要成为成为一家企业数据云公司的新定位,两条产品线在不断借鉴和打磨中迎来了全新一代产品,Cloudera Data Platform,简称CDP,在产品融合中,Cloudera使用了容器技术,让大数据架构变得非常现代化,容器化技术的加入,为Cloudera的新品带来了诸多方面的优势。

Cloudera CDP,合二为一的企业数据平台

Cloudera大中华区总经理徐晋在介绍CDP时说,它结合了Cloudera原来的CDH跟Hortonworks原来的HDP,并且选取两个产品当中最精华的部分融为一体,它被称之为Cloudera Runtime,它集成了Apache开源社区将近30多个开源项目,经过研发测试、整合,最后提供一个可靠的基础的大数据运行环境。

基于这样一个平台,Cloudera可提供六方面的能力。

第一个是Data Hub的数据接入能力,它可以提供一个用来集中存放数据、管理数据的能力。

第二个是Data Flow & Streaming的数据收集传输能力,CDP有一系列实时数据处理方案,常见比如有Apache Kafka。

第三块是Cloudera Data Engineering的批处理能力,顾名思义主要就是用来做批量数据处理。

第四块是Cloudera Data Warehouse的数据仓库服务,它可以替换原有的传统数据仓库,类似于一些在银行等领域经常可以看到的MPP类型的数据仓库。

第五块是Operational Database,是包括Hbase在内的一些实时的非结构化数据库,能够提供互联网级别的对外服务能力。

最后一块是机器学习平台,将AI能力赋能给用户,帮助企业将AI在企业内部里面真正的推广开来,让企业作出基于数据驱动的决策。

在六大核心能力之上,CDP还有一个独特的数据管理层——SDX,即共享数据体验,在SDX的帮助下,所有存放在Cloudera平台上的数据,无论是在做批量处理,还是做报表,还是用于机器学习,所有数据的使用都会提供统一的数据管理、统一的数据目录、统一数据的安全管控,提供同一套数据治理控制的机制。

Cloudera CDP优化了使用体验,首先它上手非常简单,可以像使用公有云服务一样使用该平台,通过按纽配置就能部署上线应用,值得一提的是,它的一些用户界面是面向业务部门来设计的,非常界面友好,甚至业务部门可以做自主服务。

Cloudera CDP推出了私有云版本和公有云PaaS服务两种形式,支持混合云的部署方式,既可以部署在企业自己的数据中心、私有云环境,也可以部署在AWS、Azure等公有云以及多云环境,即使用户在不同环境下,也能有近乎一致的使用体验。

容器为Cloudera CDP带来了诸多方面的优势

在真实的企业环境中,部署和应用数据系统其实是非常复杂的一件事,常常面临诸多方面的问题,这些问题因为新的容器技术的引入在很大程度上得到了解决。

由于历史原因,用户内部经常会有许多过去已经设立的项目,这些项目中有很多都有重复性,久而久之,系统中的数据冗余现象就越来越明显,数据使用效率也是越来越低。由于容器技术的引入,全新的CDP可以很好地从技术层面解决这一问题。

作为非常现代化的方案,在技术架构上,Cloudera CDP采用了容器技术,由于Hadoopp包含的组件非常多,部署非常麻烦,以前需要几个星期才能完成的部署,现在用了容器化之后大概只需要几分钟。

不仅如此,由于采用了容器技术,所以,平台还可以为某个应用设定特定该版本的计算引擎,而无需关注别的应用对应的计算引擎,当用户喜欢新版本的计算引擎的某些新特性的时候,可以自由升级到新版本,无需关注别的计算引擎的版本。

容器不仅能让系统承载不同的软件版本,而且还能提供弹性伸缩能力。当系统中运行着来自多个租户的不同应用时,如果没有好的资源隔离,应用之间会相互抢占资源,如果有些关键工作负载的SLA受到影响的话,运维人员就会采取一些简单粗暴的方法,比如把非关键型工作负载关停,而有了容器技术后,它带来的弹性伸缩能快速灵活作出响应。

作为一款企业级数据平台,Cloudera非常重视数据安全性和管控的机制。Cloudera追求的是无论用户在哪里运行其数据资产,都能确保一致的数据安全性,能对数据进行有效的治理,对数据的来龙去脉以及血缘关系进行跟踪,对数据进行加密等等,可以在整个企业范围内确保数据的安全。

作为一款全球范围内都非常有影响力的大数据平台,Cloudera CDP发布前在全球范围内有许多用户试用,在中国,Cloudera与上海的浦发银行的联合实验室也在做相关验证。全球范围内,有许多与Cloudera在产品层面有深入合作的客户,这些用户会率先尝试许多新产品,Cloudera CDP目前也得到了许多积极反馈。

100%代码开源

作为一个融合了Cloudera CDH和Hortonworks HDP平台的产品,原来的用户都可以升级到新的CDP平台上,用户不需要做迁移,可以直接在本地原地升级到CDP,保持了产品层面上的连续性。而CDH跟HDP将在未来某个时间段内停止更新。

与以往不同的是,Cloudera CDP此次推行的是100%代码开源策略,不过,由于开源策略的修改,只有付费的用户才能够下载到这些软件,100%的开源也只是面向付费用户。此外,徐晋还表示,Cloudera后续的产品也会保证所有的源代码都是100%开源,承诺将继续为开源社区项目做贡献。

之所以有这样的调整,徐晋表示这是为了能够更好地服务到用户,希望付费客户所获得的价值要与免费使用的用户有所区别。

最后,对于Hadoop的未来发展也是充满了信心,徐晋认为Hadoop已经过了泡沫期,现在进入了一个缓步增长的过程当中。

从市场用户的实际反映来看,Hadoop是一个默认的事实标准,大量客户新建大数据平台的时候,默认会使用Hadoop技术,Hadoop是一个最成熟、最理性的选择。

Hadoop本身已经比较成熟,但作为一个有40个开源项目组成的集合体,Cloudera把很多的新的开源的项目纳入到CDP里,不断丰富以Hadoop为起点的大数据开源社区,社区的生命力,社区的运作模式,客户的接受度,都是处于一个非常好的势头。