这是一个奇怪的现象:卖家在侃侃而谈自身的不足,客户却认为你的商品很牛叉,帮了我很大的忙。这个商品,就是阿里云的服务。
在10月16-17日的阿里云开发者大会上,阿里云计算总裁王文彬做了一场让雷霆意想不到的演讲:道歉。王文彬和他的同事们坦然直面阿里云在服务上出现的问题,从产品、技术、运维多角度解析背后的问题,以及阿里云的应对策略。
这不由让雷霆想到司马光卖马的故事。但不一样的是司马光不会把马治好,只能想到降价交易,而阿里云在不断改进,并且发展势头不错,成功与浙江、贵州等多个省市签署战略合作协议,恒生电子、健康宝、Face++等企业的高层也在媒体采访中盛赞阿里云服务相对于传统IT的各种优势。
王文彬表示,阿里云遇到的投诉包括服务、故障、产品功能和易用性、运营等四个方面的问题,对用户而言,一些不可用的问题影响了他们的云上体验,所以阿里云未来从平台转向用户导向,进一步完善产品和服务,服务好每一位用户。
在阿里云看来,IBM当年关于未来世界可能只需要5台主机的论断,只是验证了未来的不可测,阿里云在5年创业实践中摸到了未来的门槛:未来上百亿设备的服务端、千万级的客户都将在强力的云计算上面,大采用的是大规模的分布式计算架构,横向扩展。
恒生电子已经看到了这样的趋势,这家98%的基金公司的管理软件供应商,正在致力于在阿里云平台上为传统的软件功能提供一种服务的交付模式,恒生网络事业部首席架构师李文松表示,提供服务让公司有机会获得更多的中小型客户,横向扩展模式则可以提供更多的弹性和灵活性,并规避集中式架构面临的天花板,更好地服务需求大规模资源的大客户。
趋势不可逆转,IBM最新的POWER 8处理器,也已经转而支持横向扩展。然而分布式架构在最近几年才获得较快的发展,不像传统纵向扩展架构那样久经验证,并且具有一整套成熟的故障排除方法论。这意味着用户采用新架构的风险。这一点,王文彬自己就有深刻的体会。
王文彬在担任淘宝副总裁时,不愿意用阿里云支持其聚石塔项目(电商开放平台),而是要用原来的淘宝技术体系,但被负责技术保障的刘振飞“粗暴”地顶回去。而负责阿里金融的胡晓明也曾有同样的想法和同样的结果。其实,刘振飞自己最初对其淘宝技术保障部与阿里云运维团队的合并也不是那么积极,因为“心里没底”,但马云做保:未来属于云计算和大数据,新加入的王坚知道怎么做。
从IOE到云计算,从服务内部电商客户到面向全行业,王坚其实做得很辛苦,首先分布式计算确实有很多需要解决的基础问题。阿里云计算有限公司资深总监唐洪表示,小概率故障成为常态是飞天遇到的重要技术挑战之一。“分布式计算中,当服务器规模达到一定程度时,任何小概率故障都有可能成为常态。”唐洪说。
这些小概率故障主要包括磁盘的故障、机器的故障和网络的故障等。磁盘方面,以SATA磁盘3%的年故障率计算,5K机器每天坏4块,100K机器每小时坏4块。常见的机器故障问题有内存ECC错误,根分区只读问题等等,如果有5K机器,每天会坏一台,100K机器则是每小时坏一台。网络也会发生丢包、时断时连等故障,阿里云集群受影响时间大约是每年每集群1小时。
对于企业业务系统来说,这些数字足以让我们怵目惊心。但这只是问题之一,唐洪表示,飞天还面临运营中的人为因素、多租户环境(提升弹性和成本效益)的性能隔离等挑战。
“云计算的本质是服务加上24小时的运维保障,”王文彬说,“这是一个365天24小时的共生关系,这对任何一家公司都是全新的挑战。我们现在认识到这个挑战,我们还在路上。”
整个业界都还在路上。所以,浪潮一手做SmartRack,一手做天梭K1小型机,两个市场都获得不小的成功;IBM力推POWERLinux,却也无意把AIX完全迁移到Linux环境。国内外的服务器厂商认为,横向扩展和纵向扩展面向不同的工作负载,这与阿里云的观点截然不同。
阿里云表示,将从三个方面来改进产品:建立更有效的客户沟通渠道,解决基础产品的稳定性和完善基本开发者体验。例如,针对小概率故障,阿里云特别开发了“华佗”系统,进行快速甄别和自动化处理。
“虽然故障的事实无法改变,但我们的努力可以创在更少故障的未来!”王文彬引用杜勇《进步集》的话说。
要服务千万级的客户,其实还有上层应用的问题。传统IT系统,尤其是关键应用,都基于纵向扩展架构设计的,迁移到云,还是意味着迁移的成本和风险,所以,阿里云需要更多的努力,才有可能服务以后的千万级客户。不做应用的阿里云,多次强调要服务好开发者,王文彬认为这也要改进。
“我们要建立一个懂开发者的产品技术跟开发团队,这方面以前我们做的不够。”王文彬说,以前的平台思维,使得阿里云团队不够理解开发者的需求。他承诺要与开发者进行更多的互动,从产品、技术和服务团队来做好阿里云。
阿里云不惜自曝其短,雷霆认为这有三层含义:第一,我们牛叉的云平台是一刀一枪拼出来的,把云计算做成公共服务是一项巨大的挑战,我们还不完美,但比别家的云更成熟;第二,我们是客户导向的,对客户坦诚,不粉饰太平,不做一锤子买卖,而是真正地和开发者一条心,要打造一个利益共同体;第三,我们会不惜代价迎难而上,开发者可以永久地解除后顾之忧。
自曝挑战,仍是瑕不掩瑜,阿里云飞天5k集群的牛叉是业界公认的,只支持天猫、淘宝、支付宝、阿里小贷等阿里巴巴集团业务这一项,已经足以征服客户,让他们视为首选的云服务平台。李文松表示,在金融行业,目前能够真正从底层硬件到操作系统、数据库、中间件,到上层应用,完整地实现自主开发、安全可控的技术,只有阿里巴巴做到了。目前,包括不少的金融客户已经选择了阿里云。
值得一提的是,目前阿里云没有销售团队,没为营销花一分钱,靠的是客户口碑相传,客户自动找上门,阿里云只需思考如何去满足他们的需求,这又是典型的互联网思维。道歉的王文彬谈到这一点还是很自豪,在他看来,互联网基因始终是阿里云不同于巨头的云的根源之一。但正如前文所述,想要把云变成电一样的服务,改变世界,阿里云还需要让飞天更加完善。
爱迪生说,起码我发现了1000多种材料不能做灯丝,但他试验6000种材料失败了9000多次才找到了碳化纤维,而且还可能借鉴了斯旺的成果。所以说,阿里云发现现有问题、明确目标相对简单,解决问题的难度,可能不亚于开发飞天那样的工程。
灯丝的试验,失败只属于爱迪生,阿里云的责任更加重大,进步的速度与平台上的客户的利益息息相关。但王文彬有信心,明年的开发者大会上不用再谈这些难题。“阿里做的事情哪一件是不难的?我们阿里云内部有一句话说,不难要你干什么?所以我们必须面对这些挑战,把这些问题解决。”王文彬说。