从FY21Q1财报看Cloudera的转型之路

作者:郭华

今年六月距去年六月正好一年。

去年六月,Cloudera发了FY20Q1财报,营收以微小差值不及分析师预期,股价当天跌去40%。

今年六月,Cloudera发了FY21Q1财报,对比去年,营收增长12%,利润增长44%,大客户和订阅服务占比也稳定增长,均超分析师预期,于是股价一路上涨,疫情中逆势重回高地。

从股价来看,Cloudera这一年的表现就像坐了一次过山车,不过解读财报非我所愿,对趋势做技术分析更非我所擅长,但对于这个现象,我倒有些关于“基本面”的话想说一说。

去年六月,在Cloudera股价暴跌的时候,大家找到了三个问题:

  1. Cloudera所赖以生存的Hadoop气数已尽;
  2. Cloudera公司合并了Hortonworks,两者的产品线不同,整合困难;
  3. Cloudera在云时代毫无作为,已被抛弃;

这三个问题在程度上虽然有夸张的成分,但不完全是空穴来风,关注点也非常准确。所以所谓的“基本面”,其实就是看看Cloudera到底把它们解决掉了没有。

1.   Hadoop已死,Hadoop长存

很早的时候,大概比Cloudera股价暴跌2019年还早那么五六年,很多人便开始宣称Hadoop已死,Spark出来后Hadoop已死,Elasticsearch出来后Hadoop已死,甚至MongoDB出来后Hadoop也已死。

作为一个2011年开始接触Hadoop,并至今还赖以为生的IT中年,我对Hadoop已死的论调十分不感冒。实际上只需几个问题便能停止这种毫无根据的假想:有几家公司做大数据不用Hadoop?Hadoop是否有替代方案?如果有的话,难度是不是小于Elasticsearch或Spark或Mongo或其他?

我更能接受的一种说法是,Hadoop里某些组件已经有了的替代品,比如Spark、Flink 之于 MapReduce,云存储之于HDFS,K8S之于YARN。而且我认为比起Hadoop已死的暴力论断,这种说法更为实际,也更值得Cloudera担心。

那Cloudera是怎么解决这个问题的?

他没有解决。

真的,他没有反驳和抗拒技术本身的衰落,反而承认了这一点。他说技术就是不停的处于打破与被打破的循环之中,而他们要做的是把Hadoop发展成一个生态,让那些更先进的技术,最终成为这个生态的一部分,老的如Hive、Hbase,新的像Spark、Flink,现在都是Hadoop生态的一部分,总体不下40个。

就像一片森林,局部有枯萎有新生,但整体看斗转星移,生生不息。

借用他们的一张PPT来看,大概是下边这样。

(图片来自Cloudera大中华区总经理徐晋在InfoQ的分享)

这是一种拥抱变化的哲学。

如果这样看的话,你不得不承认Hadoop反而有比其他开源软件更强的生命力。因为虽然大家都有意无意在朝这个方向努力,比如Elasticsearch上的ELK、Kafka上的KSQL和Kafka Streams,但能做成一个生态的,目前看,恐怕只有Hadoop。

而且从另一方面来看,很多厂商提供的Hadoop部分替换方案也无一例外会兼容Hadoop接口,所以哪怕Hadoop自身所有软件都衰落了,被完全替换了,Hadoop也能作为一种标准继续存在。

Hadoop已死,Hadoop长存。

2.   Cloudera产品线合并

全新的Cloudera由老的Cloudera和Hortonworks合并而来。

在合并之前,两者的产品虽然都基于Hadoop,但理念和具体组件并不一致。Cloudera的产品叫CDH,采取了Open Core+闭源组件的商业模式,在开源Hadoop上加了一些自研产品,比如管控平台。Hortonworks的产品叫HDP,组件和商业模式都采取了全开源的模式。

所以合并后的第一大问题就是产品策略的问题。

为此,Cloudera做了大刀阔斧的改革。

一方面,Cloudera保持对原CDH和HDP的支持直到2022年,给这些客户一个平滑的过渡期。另一方面,Cloudera也推出了整合性的新产品,并且孤注一掷的表示2022年以后,全部客户都会转移到这个产品上来。

这个新产品便是CDP。

CDP全称为Cloudera Data Platform。按照Cloudera CPO Arun Murthy的说法,CDP会在CDH6和HDP3的基础上进行整合,把两条产品线里最好的组件拿出来,在保证兼容性的前提下,给客户更好的体验。

在这个基础上,Cloudera也改变了自己的商业模式。

2019年7月,Cloudera发表了一篇文章,题为《我们对开源的承诺》,表示会把原来的闭源组件全部开源,比如Cloudera Manager,Cloudera Navigator和Cloudera Data Science Workbench(“CDSW”)等,而且这个决定在所有新发版本上全部有效,包括老的CDH、HDP和CDP。

该决定的执行期为6个月,现在已完成。

现在Cloudera把所有产品都托管到了Apache基金会,在AGPL 和 Apache 2.0 两种许可下进行开源,并以订阅的形式向客户收取软件和服务费用。

这是Cloudera新商业模式,也是红帽的商业模式。早在2013年的时候,Cloudera的第一任CEO Mike Olson就曾表示,虽然开源软件蓬勃发展,但其背后的商业公司却难以独立生存,要么消失要么被收购,比如IIIustra、Informix、Sleepycat、Mysql、SpringSource、JBoss……实际成功的只有一家,就是红帽。

所以并不意外。

那效果怎么样?

从FY21Q1财报来看,订阅服务收入1.871亿美元,占总体的89%,同比增长21%,超过总体增幅,同时毛利率也提高到了85%。这意味着订阅服务已经成了其营收的主力,而且在带动整体向上突破。

与此同时,Cloudera的客户数也在增加。

FY20Q2的财报中, Cloudera的大客户(年化经常性收入大于10万美金)数增长了24个,达到953个。而到了FY21Q1的财报,这个数字已经到了1004。要知道一年前Cloudera的暴跌就和客户数有关,在FY20Q1的财报电话会议上前 CEO Tom Reilly曾亲口承认产品线的分歧影响了客户拓展,确实某些客户因为等待产品线的整合而推迟了续费。

所以从这两点看,Cloudera在产品线上的整合可以说是成功了。

3.   与云共生

过去的一年是Cloudera在云计算上猛追猛赶的一年。

北宋有位“半部论语治天下”的名相赵普,在宋太宗赵匡义继位时,他曾上书说,“中国既安,群夷自服。是故夫欲攘外者,必先安内。” 自此以后,“攘外必先安内”就流传了下来,成了历代统治者面临内忧外患时的首选策略,直到九一八事变后,还在被国民政府反复强调。

这句话用来形容Cloudera或许也是贴切的。

因为Hadoop社区之前一直在内战。Hadoop萌芽自Doug Cutting个人,但成长于雅虎。在Hadoop基础上,有两家主要开源独立开源商业公司,就是Cloudera和Hortonworks,两家在开源社区的贡献几乎相当,双方不仅在争夺市场,也在争夺开源Hadoop的控制权。这种分裂牵扯了太多精力,以至于一不注意就让云厂商直接用开源Hadoop收割掉了大部分企业上云的红利。

所以有这样一种魔幻般的现实,一边是Hadoop已死,一边是各大云厂商拿Hadoop疯狂赚钱。据分析师测算,单2018年AWS的EMR就产生了2.5亿美金的营收,而该产品介绍就是“Hosted Hadoop framework“。而这并不是孤例,除AWS的EMR外,谷歌云有Dataproc,Azure有HDInsight,阿里云有E-MapReduce,云计算四巨头,在收割Hadoop开源红利面前,无一缺席。

所以如果说产品线合并是内忧的话,那云厂商就是外患了。

不过云厂商并不是在针对Hadoop,云只是在崛起,并在崛起之路上顺带吞噬了遇到的东西,不仅包括Hadoop,也包括其他开源软件。

MongoDB 的 CEO这样描述道:“每当一个新的开源项目变得非常流行时,云提供商就会剥夺我们的技术,将免费软件放在他们的平台上,然后从中获取大部分(如果不是全部)价值,但几乎不回馈开源社区”。

只要用户上了云,那他几乎只能选择云厂商提供的开源服务,而上云恰恰是过去十年企业IT的主旋律。这让开源原厂十分愤怒,Redis CEO 直言:“多年来,我们就像个傻子一样,他们拿着我们开发的东西大赚了一笔”。

于是他们纷纷开始采取行动,一方面修改开源协议,禁止云厂商提供托管服务(只针对部分组件有效),另一方面也在积极发展自己的独立云服务,比如Confluent的Confluent Cloud、Elastic的Elastic Cloud,以及Cloudera的CDP。

他们怒斥公共云厂商为吸血鬼,而且准备以反垄断名义提起诉讼。

不过好在云厂商也不是铁板一块,比如谷歌就从中看到了超越AWS的机会。他旗帜鲜明的表示支持开源,并在2019年引入了7家开源软件供应商,通过谷歌云售卖他们的商业服务,准备打造一个Open Cloud。

大部分云厂商都有一个MarketPlace可以售卖其他公司开发的软件,而谷歌云的特别之处在于,他引入的开源厂商都会有内部的团队来对业绩负责。比如引入Confluent(kafka)的就是谷歌自己的Pub/Sub产品团队,两者功能和场景上类似,只不过一个自研,一个开源。按照谷歌的说法,在同一个云平台上提供这两个产品,旨在“满足用户的不同选择倾向”。

在这种情况下,开源原厂的独立云服务变得实际起来,他们可以和不同的公共云合作,在不同的云上售卖自己的产品,同时维持独立入口,与云共生。

Cloudera的CDP也是如此。

CDP不仅是原CDH和HDP两条产品线的结合体,也有支持多云的共有云版本,同时也有私有云/混合云等多种运行环境。

而且CDP的开发速度也十分快,2019年初公布计划,几个月后产品发布,目前已经完成了在AWS、Azure上的版本,谷歌云版本下半年面市。实际上多云不仅是Cloudera应对云厂商威胁的手段,从客户的需求看,其本身也有不可替代的价值。随着云渗透率的提高,被云绑定成了一个切实的担忧,让很多客户在上云的同时寻找Plan B。比如把应用部署在多个云服务商,或者自建机房。CDP就是这种需求下的产物,通过CDP,客户可以把自己的大数据服务部署到AWS、Azure或谷歌云上,无缝切换,消除了被某个云厂商绑定的问题。

而且Cloudera最近还推出了CDP私有云,在K8S基础上把存储和计算做了分离,让客户应用可以在公有云与公有云,公有云和私有云之间无缝切换,构建一个“以数据为中心,面向多云的私有云平台”。

短短一年时间,Cloudera以惊人的速度完成了一场蜕变,曾被人诟病在云时代毫无作为的他,俨然看齐并领先起了潮流。

4.   总结

这便是Cloudera股价过山车背后的基本面,他孤注一掷的CDP不管从计划还是执行上都表现的足够亮眼,以一个产品解答了曾被人诟病的多个问题。从这个角度来看,可以说他转型成功了,至少也走在了成功的路上。

再没有人像去年那样,用洋枪队围观神拳义和团的姿态,询问他将何去何从。

只是对他来说,过去的这一年似乎有些漫长。