王坚:阿里巴巴为什么“去IOE”(一)

在阿里巴巴首席技术官、阿里云总裁王坚的办公室有一面墙摆满了书,《丰乳肥臀》、《史蒂夫·乔布斯传》、《分布式系统原理与范型》这三本被摆放在右侧第三排上。

用这三本书来概括王坚似乎也很合适。工程心理学出身的王坚,用魔幻现实主义色彩带领着团队,所有的阿里云产品在内部被冠以传统神话中神的名字:阿里云的核心技术引擎被命名为“飞天”,一位亲水的神仙;协同调度系统称为“女娲”;“分布式文件系统”叫做盘古等等

从2008年11月加盟阿里集团开始,王坚在集团首席技术官和阿里云总裁角色之间不断转换。办公室里整墙贴满“云OS”效果图,与团队在办公室旁的“钟馗道-争端解决室”开会到深夜已成常态,王坚有着产品经理敏感执着的特质。

在王坚眼里云计算是一场革命,是一场用服务颠覆传统软件硬件时代IT建设旧思维的革命。王坚这样概括“去IOE”运动和阿里云之间的关系:“去IOE”彻底改变了阿里集团IT架构的基础,是阿里拥抱云计算,产出计算服务的基础。“去IOE”的本质是分布化,让随处可以买到的Commodity PC架构成为可能,使云计算能够落地的首要条件。

从“去IOE”到拥抱开源技术,从整个集团的IT支持到阿里云未来发展,这些都使王坚有了几分神秘的色彩。在ITValue社区(中国最大的基于知识分享的CIO人际社区) 会员通过发帖和微信交流群对王坚展开提问,王坚认为:“与CIO的交流将成为阿里云竞争力的来源,是中国的用户在把云计算推到一个新高度。”

Q:为什么“IOE”对互联网企业的发展是—个问题?“去IOE”和开源对IT团队的技术储备有多高要求?(by博士伦中国公司 IT director汪华)

A:不同的人在理解“去IOE”的原因是不一样的。我最怕将“去IOE”的原因归结到两个极端:一是单纯变为企业成本问题,二是简单地变成一个是否用国外产品和技术的问题去讨论。成本降低是“去IOE”最先能够看到的,但最根本的原因是在互联网时代,不只是互联网企业,绝大部分企业对计算需求难以通过IOE提供的技术来满足了,IOE约束了企业长远的发展;技术路径上依赖于专用的硬件设备比较危险,随处可以买到的Commodity PC的架构长远来讲对于阿里和大多数企业则是最安全的。对于成本,我想说今天所有讲的开源技术只解决了软件使用成本的问题,而忽略了开源软件的升级和维护成本。

理论上只要计算能力够,“IOE”就一定能去掉!但实际上“去IOE”这件事有技术挑战和风险。对绝大多数企业,“去IOE”不是简单改变软件和硬件本身,用新的软硬件取代旧的软硬件,而是用新的方式取代旧的方式,是用云计算彻底改变IT基础架构。

“IOE”是软件时代或是“买计算机”时代的产物。在云计算时代,则变成买“计算”的时代,“去IOE”最好的解决方式是采用云计算,而不是买来一台新的机器替代掉原有机器。这是一个行业的变化而不是策略的选择,这件事情的挑战是你心里是否接受所谓的“私有云”的消失,从信任传统软硬件厂商到信任云计算是一种安全的服务。

Q:是否有一天企业都采用开源,而且没有软件供应商只有服务供应商时,IT建设的一些困难才能够解决?(by宁波方太厨具有限公司CIO 邴哲)

A:我想从阿里集团自身技术的发展解释这一问题。阿里的技术发展从主要依靠商业软件、到开源再发展到更多的自有技术或是说云计算。

阿里最早依赖商业软件,从拥有20多个节点的Oracle RAC数据库集群(当时是亚洲最大),到成为开发使用开源软件MySQL最好的企业之一,到研发自己的关系数据库OceanBase,也已用在了不同的业务场景。从用Oracle做处理数据,到用Hadoop集群(是业内单个机群节点数最多的Hadoop机群),再到用自己飞天平台上的ODPS。这样的演变路径也表明:商业软件、开源软件跟自有技术永远是一个搭档,对于不同企业来说,只是百分比的问题,对于大的互联网企业来说自有技术变得非常重要。阿里巴巴的许多自有技术,如飞天的核心平台通过云计算的方式开放给别人,所以云计算是适合许多企业的另一种方式。我相信在未来,对大多企业来讲,云计算平台+自有技术+开源技术会变得越来越重要。

在很多场合大家习惯性的把开放直接等同于开源,其实开源不是开放的唯一手段,在互联网时代,云计算是一种新的开放形式。在许多业务和应用场景下,与云计算相比,开源未必是最好的手段。开源软件还是软件,开源软件本身是伴随着软件时代的产物,仍然需要较大成本投入在维护和升级。今天云计算的发展得益于开源软件的发展同时云计算的出现对开源软件的应用也会有冲击,例如当云计算提供了关系数据库服务时,你就要考虑是否还要购买或使用商业数据库软件或开源数据库软件。阿里云和CODE.CSDN及开源中国等机构的合作,也是希望开源社区和技术与云计算能更好融合,共同服务好用户。

在互联网时代,运行在数据中心里的软件面临运营的挑战,复杂度很大。从使用软件(包括开源软件)到运营数据中心里的软件是一次根本的变化,大部分企业还没有这种服务能力,社会的分工也不能要求每个企业都去做这种运营。云计算给了企业一个机会,企业不需要买软件,就可以享受最好的服务和计算能力。这就是为什么在互联网时代,云计算平台+开源软件+自有技术会是一个基本格局,传统靠收许可和服务费的商业软件会越来越没有市场。

Q:阿里云、天猫和淘宝的技术体系是怎样的?在去IOE过程中,他们是如何协同?(by中国南方航空公司技术总监龙庚)

A:支付宝、天猫和淘宝、阿里云的实际技术应用确实有所不同,我们也一样会遇到所有公司都会遇到的挑战,但我们很幸运的是阿里巴巴整个技术体系是协同在一起的。

阿里整体技术的协同效率可以用几个关键的事例来说明:第一是在“去IOE”过程中逐渐建立起对技术方向的认同和协作,当淘宝刚开始做这件事的时候,没有技术、产品和业务等各团队的相互协同,这是一件不可能的事;第二是在2011年,阿里集团所有的技术后台运维和运营部门都集中在首席技术官下面,成立统一的技术保障部,原来在不同子公司和事业部的人,从工具到理念都需要融合,结果表明这样对适应集团业务的快速发展和变化是很成功的,并且能够用这样的方法驾驭大型互联网企业对技术服务的挑战。这一过程中,我们经历的技术和组织的挑战与付出的学费可以为其他企业的借鉴。第三则是业务驱动的技术协同,淘宝“聚石塔”、支付宝“聚宝盆”等业务,都是在业务驱使下使得各自客户的IT系统运行在了阿里云“飞天”平台上,它是一种自然协同的结果。

Q:阿里云如何消除用户对云计算安全的忧虑?用户访问速度如何保障?有无简单的退出机制和迁移工具?(by州逸酒店和度假村集团副总裁 朱明生)

A:安全忧虑的本质是信任问题,信任问题唯一可以解决的方法是靠透明,阿里云欢迎所有CIO来挑战云安全问题,透明真的是唯一的方式。在一次工信部召开的全国各省通信管理局负责人的会上,我也讲,我们有强烈的需求让政府监管我们!我们可以想一个方法,从你们的CIO俱乐部开始,制定一个很透明的机制,阿里云愿意被监管。

用户访问速度涉及两个方面:一个是互联网本身的速度;另一个是服务响应速度。今天我们的云计算服务解决了不同运营商互通互联的问题,互联网本身的速度是足够满足需求的。但应用服务的架构也会影响到响应时间,这需要技术的改进。很多人把服务和应用搬到云上来,是直接把原来的架构搬上来,这就需要我们和企业一起努力解决的问题。

关于退出机制,今天我们的很多客户是从亚马逊搬来的,同样也有客户因为不满意我们的服务搬到别处去了。云计算是有黏性的,但今天是一个开放竞争的环境,没有人有能力画地为牢。我们也提供相应的迁移工具,只是任何迁移都是有成本的。我认为这可以和信任问题一起讨论,需要大家的共同规范。