阿里云观察2014

2011年和2012年,我先后两次对话阿里云的负责人王坚博士,先后在《凌云》杂志发表了《追寻凌云梦》和《阿里云观察》两篇文章,记录了阿里云和王坚本人不同发展阶段的酸甜苦辣。在后一篇文章的结尾,我这样写道:“全球范围内,Amazon云计算对整个新兴产业的发展无疑举足轻重。对于中国来说,阿里云的成败也有类似的分量。”

我没有想到的是,此后一年多,国外云计算的形势很快就发生了较大变化。

最引人瞩目的故事,是Amazon在2013年3月获得美国中情局6亿美元的大单,强力攻入企业级市场的核心地带——政府。更有戏剧性的是,IBM为此不惜把中情局告上法庭,仍然未能挽回局面。

而在总体格局上,微软和Google先后放弃只做PaaS的战略,开始在IaaS市场发力,引发一系列连锁反应。2012年6月6日,微软首次公开自己的IaaS服务的时候,还用混合云的名义来遮掩。而同月Google在I/O大会上发布IaaS平台GCE(Google ComputeEngine)则高调多了,剑锋毫不客气地直指AWS。等两家IaaS正式上线开放服务,已经到了差不多一年后2013年的4月和5月。总体上,它们比Amazon要晚上5年以上。以至于去年8月Gartner的数据估计,AWS的计算容量是后面14家竞争对手总和的5倍。

但是,两大巨头毕竟实力雄厚(技术实力毋庸置疑,又握有数以百亿计的现金),只要公司顶层下了决心(解决了我所说的“一把手工程”问题),无论产品还是市场上都追得很猛。2014年1月,Google负责基础设施的高级副总裁Urs Hölzle给全公司发送了一份令人震惊的备忘录,表示自己的团队将对公司内部包括搜索和Gmail这样的“客户”减少关注,将大部分精力转向公司以外的新客户,大力打造公共云计算。2014年2月,微软原来负责云业务的Satya Nadella成为新的CEO,他很自然地将云定为公司的两大核心战略,Azure无论在产品还是市场力度上陡然加大。

巨头竞争最大的利器,是大把在固定资产上投钱(每年投入在数十亿美元),然后展开血肉横飞的价格战。2014年3月,Google首先发起一轮大规模的降价,各项服务降幅达32%~85%,Amazon第二天就马上跟进,微软的降价通知也不过再等了几天,但降幅比Google都要小一些。价格战的直接结果是“神仙打架,百姓遭殃”,RackSpace这样的独立云厂商首先撑不下去了:他们拒绝跟进降价,继而在一片收购和私有化传闻中,几个月内的股价跌去一半,不得不在今年5月宣布退出纯IaaS市场,主推绑定服务的托管云。即使是Amazon也开始感到吃力,第二季度的财报发布时,他们的CFO公开承认价格战影响了公司的财务表现,股价也应声而落。

到7月份,一些国外的分析机构和媒体已经在讨论:如果把SaaS加进来,到年底微软的云业务收入会不会超过Amazon?

形势现在很清楚了,在美国,公共云计算市场已经成为巨头的角斗场所。只有既有资源、又有技术实力的公司才能继续生存。Amazon虽然一开始战略对头,选对了从IaaS开始,成为长期的领跑者,至今仍然有较大优势,但Google和微软一旦力,这场长途征战,鹿死谁手,还很难预料。三巨头之外,还有哪些公司能拿到所剩无几的船票?Apple、IBM、Facebook、Oracle、Intel、Cisco、EMC/VMware……候选人的名单很长,但胜出的概率却很小了。

国内的情况呢?从某些方面看,与前几年的美国Amazon一马当先,微软和Google还在犹豫,但AWS之上的云生态已经方兴未艾的确非常类似。中国市场上,阿里云的行业领导地位已经基本确立,腾讯云虽然也有比较完整的产品线,但对外似乎并不急于发力,百度云更是一直战略方向都没有定下来,电信运营商和其他较大的IT公司也同样心不在焉。

而各类创业公司则一派欣欣向荣的景象。某种程度上,正是在阿里云不断地通过双十一、余额宝和去IOE等大动作震撼业界、教育市场的东风下,中国云计算生态的确有了很大起色。越来越多的移动游戏、互联网、商、金融、在线教育、企业软件服务规模性转向云计算。与之相对应的,从2013年1月开始,国内连续出现多起云计算领域投资案例,一扫之前的阴郁,包括IaaS层面的七牛、又拍、QingCloud、UCloud、UnitedStack、道里云、群核、监控宝、云杉网络、多备份、VisualOps、华云数据、刻通云、巨杉等,SaaS层面的Tower、Worktile、明道、纷享、Teambition……以至于常参与讨论的云计算行业微信群里,在我的持续观察之下,除我之外的其他人在一年多的时间里几乎都拿到投资,成了土豪。有些IaaS公司融资高达数千万美元,意味着他们的收入很可能可以达到数千万乃至过亿人民币的水平。

在《阿里云观察》一文中,我曾经说过:“阿里云在国内目前没有真正的对手,2013年将继续享受较长时间的机遇窗口。”事实上,阿里云的确很好地抓住了这个机遇,打了好几个漂亮仗,几乎一直主导着云计算方面的业界话题。

■ 2013年5月17日,阿里集团最后一台IBM小机在支付宝下线,7月10日,淘宝最后一个Oracle数据库在广告系统中下线,“去IOE”取得关键性成功。与此同时,“去IOE”也引起IT界热议和思考,技术重新选型蔚然成风。

■ 2013年6月13日,余额宝在阿里云的支撑下推出,一年后用户过亿,规模达到近6千亿,使背后原本默默无闻的天弘基金成为业界领导者,震撼了中国基金业乃至整个金融业,互联网金融成为社会热点。

■ 2013年11月11日,双十一再创纪录,单日成交额达到362亿,而建构在阿里云之上的聚石塔处理了75%的订单量,无一故障。而双十一巨大的成交量,让零售业感受到了前所未有的变革压力。

■ 2013年11月27日,代号“聚宝盆”的金融云服务推出,阿里云成为金融行业IT架构的一个新选择。次年5月媒体报道,使用阿里云服务的金融机构超过100家。

■ 2014年2月27日,阿里与海南签订规划总投资50亿元的“未来城市”计划。此后,阿里云在政务与民生领域的新闻不断地见诸报端:中国气象局、广西、贵州、宁夏、河南、河北……

■ 2014年3月4日从CDN正式商用起,新的产品和服务也在密集推出,仅在6、7月就连续开放大数据处理服务ODPS、日志服务SLS、搜索OpenSearch、BI服务DPC(采云间)和可用区。

■ 2014年3月31日,联合高德等推出代号“聚无线”的移动云平台。

■ 2014年4月29日,北京数据中心开放。5月和9月香港和深圳数据中心又陆续开放,节点总数达到5个。

■ 2014年7月15日,开始免费试用四款入门产品的活动。

■ 2014年8月19日,发布“云合计划”,要以2:8分成的政策招募1万家云服务商,与之前成立的云栖小镇联盟,组成完整的生态系统。

……

2014年5月,阿里巴巴集团的上市招股书中,Cloud一词出现达80多次,显示云计算成为集团非常重要的组成部分。另外,业界也从中得知,阿里云计算等互联网基础设施收入2013年超过1亿美元。虽然量级与美国仍有差距,但也打破了云计算的泡沫之论。而近百万用户数量,更是令人鼓舞。

而对阿里而言,这一年多最重要的突破和转折点,却是不太为外界注意的飞天5K项目的成功。

飞天是阿里云的核心系统,它本来的设计目的就是将成千上万台服务器组成一台超级计算机,对外提供通用计算服务。早在2012年初,王坚就表示过,“从战略上来说,他们(阿里云)想做的事情实际上可以解读为Amazon+Google并有所超越”。将单一集群做到数千乃至更高,技术上是国家和企业竞争力的标志。阿里云必须攻克这道难关。只不过,从2009年才起步的飞天,一直没有机会冲击这一目标。

2013年,这个机会来了。一季度做预算的时候,大家发现,阿里集团内部数据处理的两套系统——基于Hadoop的云梯1和基于飞天的ODPS(云梯2)随着单集群规模不断扩大,都到了几千,面临5000集群规模和跨机房的门槛。如果分别继续投入、重复建设,开发和维护成本很高,浪费巨大,必须舍弃一个。怎么办?当时技术团队内部的争论非常厉害,甚至当着马云的面也不掩

饰。Hadoop作为大数据的标志性开源项目,本身更加成熟,在技术人员心目中地位很高,感情很深,而且Hadoop集群的规模本身更大。但是可控性、安全性的问题可能更会在长期成为过不去的坎儿。阿里技术保障部负责人刘振飞的一句话透出了这场争论背后的本质:“Hadoop的定位就是陪太子读书,而太子就是ODPS。”飞天5K项目因此启动,一方面ODPS往5K规模升级,另一方面Hadoop不再发展,处理负荷向ODPS迁移。

以唐洪为首的飞天核心研发团队历经4个月艰苦努力,对盘古、伏羲等组件进行了深入优化,并全新开发了自动故障处理模块华佗(细节可以参考本期相应的文章)。到2013年8月15日,这个任务胜利完成,新的基于飞天5K的ODPS生产集群规模达到5000,而且实现了跨机房,并经受了整机房断电的严苛考验。平台计算100TB排序只需30分钟,远超Yahoo! 在7月刚刚创造的

71分钟世界纪录。阿里成为世界上屈指可数的具备这一能力的公司之一,也是第一个对外提供这种能力的公司。多年来,中国在前沿性的关键技术上少有地站到了世界领奖台上。

从各方面看,飞天5K都是阿里云乃至阿里巴巴历史上重要的里程碑。到今天,支付宝的所有数据处理、淘宝的数据仓库、阿里小贷的贷款业务等越来越多的集团关键应用,都已经由ODPS和飞天5K支撑。据刘振飞透露,阿里云终于借此在集团内部证明了自己。在此之后,阿里内部关于做不做云计算、到底用Hadoop还是用ODPS,甚至王坚和阿里云靠谱不靠谱的争论都结束了。飞天5K项目为此画上了一个休止符。此后,阿里云作为集团的统一技术平台,已经成为上上下下的共识。最近,几千台的HBase集群也在往OTS上迁移。淘宝、天猫、支付宝的负责人,现在已经主动提出,要将核心系统迁移到阿里云提上日程。

在这背后,集团副总裁王文彬(花名菲青)在2014年初接任阿里云总裁,他原在淘宝天猫负责开放平台与商家业务,技术和生态建设背景均很资深,而且他领军的聚石塔是之前淘宝系基于阿里云所做的最重要的项目之一,对阿里云也有比较深的了解。同时,以集团副总裁章文嵩、传奇技术专家蔡景现(花名多隆的他刚刚成为阿里集团的合伙人)等为代表的许多原淘宝系技术精英也进入阿里云,负责主要产品的研发,大大增强了阿里云的技术实力。2014年9月原Oracle全球副总裁喻思成加盟,以集团副总裁出任阿里云技术业务总经理。再加上以刘振飞为首的猛将如云的阿里技术保障部在基础设施和运维的全力支持(参见本期文章《阿里技术保障部:阿里云的幕后英雄》)。至此,阿里云的阵容空前强大。

2013年9月,在王坚卸任阿里云总裁的消息发布之后,媒体有各种不明内情的解读。10月阿里云开发者大会,在会场附近的绿地上,我和其他云栖小镇联盟的成员一起见证了飞天5K纪念碑的揭幕仪式,王坚非常动情地张罗着众多还在阿里云或者已经离开的同事一起与刻着大家名字的纪念碑合影。我知道,这个纪念碑其实主要是王坚自己与小伙伴们几年在云计算核心技术自主研发上筚路蓝缕的阶段性总结,他的云计算之路远没有结束。此后,由于有了更多强有力的帮手,他得以从具体业务抽身,更多地将精力转到云计算和大数据战略思考、客户沟通与布道上,在更大的范围内发挥自己的影响。

事实上,王坚自己一直认为,阿里自己的业务用不用阿里云,对阿里云而言并不是最重要的事情。阿里云要成为全社会的通用计算平台,这个难度无论从技术还是服务上,比支撑阿里内部要大得多。只不过阿里云如果做得好,阿里内部也会用,这是一个附带的成果。这一年来,他与各种类型的客户交流,感触很深。他说,无论是政府、金融还是中小企业,一旦转到云计算,所能释放出来的创新能力,远远超出了他的想象,经常令他心潮澎湃。而客户对云计算的态度很大程度上已经转变,越来越多人对云计算是乐于接受的。反过来,云平台的挑战也越来越大。这么多客户要用,你的能力够不够,你接不接得住?就拿铁道部网站的问题来说,这其实不完全是政府相关部门的问题,更多的是围绕铁道部的那些企业的问题。很多事情解决不好,中国的企业不能老是赖政府,企业也有自己的责任。云计算企业要尽快提升自己的能力,否则很多客户会不得不去做一些不正确的事情,比如大规模地自行建设数据中心,用非常传统的技术架构。“最怕的事情是,五年后专家们不断呼吁要扶持国产云计算。” 王坚说自己经常有时不我待的紧迫感。

与此呼应,王文彬在介绍阿里云工作重点时说,今年的主要目标是在提升既有产品稳定性和体验、推出更为丰富的新产品的基础上,扩大阿里云的影响和市场份额,提升阿里云的口碑。产品和服务都是重中之重。他希望与更多合作伙伴一起提升用户体验。云计算本身似乎存在一个悖论,就是为了竞争和扩大规模,必须不断降价,而这又会最后使平台自身无利可图。Amazon最近的财务表现似乎证明了这一点。微软的云负责人在阐明自己优势时,说的是除了云平台本身的收入之外,微软还有其他软件授权收入,言下之意也是云计算本身不太挣钱。这也是许多其他巨头尤其是主营业务利润率比较高对此看不清楚,而迟迟没有真正投入的重要原因之一。

对此王坚表示,现在关于云计算还是有很多似是而非的认识。一方面,阿里、淘宝平台还有公共电力行业的发展历史,都证明了平台本身最后能够成为大生意,而且并不困难。由于杰文斯效应(Jevons effect),技术的进步会增加对技术的消费量,只要到了一定的规模,盈利是迟早的事情。另一方面,我们实际上已经从IT(信息技术)进入到DT(数据技术)时代,互联网+数据取代了计算机+软件,云计算是将更多行业乃至全社会数据化的平台和前提,它的价值不只是平台本身的盈利,而更在于作为基础设施,将数据的价值释放出来。这个意义要大得多。最近的几次谈话中,他举了非常多让自己感动和惊讶的云计算用户案例。“用户用阿里云在做的事情,才是阿里云的价值所在。”他举例说,美国电力科学研究院(EPRI)的数据表明,一部iPad如果每天完全充电一次,一年所耗费的电费只有1.5美元,而用户拿它去干的事情则不知道会多么伟大。王文彬也非常强调阿里云上推出ODPS这种大数据服务的意义,这也是阿里云目前的重要特色之一。

从很多方面来看,中国的云计算发展有可能超越美国。由于阿里等互联网公司积极向各行业渗透,具有比美国同行更大的影响力,加上国内许多公司的IT系统并不成熟,全社会又具有改革惯性,完全有可能直接跨越一个阶段,基于云计算平台构建新的核心IT系统。这既是阿里云及其同行的机遇,也是重重的责任。