阿里云ODPS:将大数据变成人人都可享用的“鲜榨果汁”

一款给力的榨汁机,能够让每一个家庭方便地喝到各种心仪的鲜榨果汁,轻松享受生活。现在,阿里云计算要把一个大数据的“榨汁机”送进千家万户,让每一个用户都能够把大数据的果实定制成“鲜榨果汁”,只花几百块钱就可享用大数据的商业价值。这个新鲜的“大数据榨汁机”,就是阿里云近日宣布开放的大数据产品ODPS。

顾名思义,ODPS(Open Data Processing Service)是一项开放的web服务,它基于阿里云的飞天分布式平台,将大规模处理、挖掘、算法和分析等能力封装,打包成可计量的云服务,从而将释放大数据价值的能力低成本地交付到最终用户手中。

这是立志于打造数据分享第一平台的阿里云的一款力作,开放的是阿里巴巴赖以称霸中国互联网产业的海量数据离线处理能力,支持PB级的数据。阿里云总裁王文彬说,ODPS将会改变整个中国,使得大数据平民化,它是中国云计算和大数据的一个“里程碑”。

下面,就让我们近距离地了解这款新鲜的“大数据榨汁机”,它是如何运作的,它将为中国的大数据产业带来的影响是否真的那么神奇。

阿里云总裁王文彬

ODPS能输出什么样的“鲜榨果汁”?

选一款榨汁机,它能否满足我们的胃口无疑是要考量的第一因素,所以首先要看ODPS能做什么样的数据处理。

前文说过,ODPS开放的阿里自身的数据处理能力,阿里云产品经理汤子楠介绍,阿里巴巴内部业务分析的,主要是交易数据和用户行为数据,因此,随着阿里巴巴内部业务成长的ODPS,更擅长处理结构化的数据(如电商交易记录),比较擅长处理半结构的数据(如网站浏览日志),不能处理非结构的数据(如社交文本)。

如今,阿里集团大部分数据业务已经运行于ODPS上。阿里云曾在一封公开信中形象地描述ODPS对于阿里巴巴的作用:“阿里巴巴各项数据业务都在用ODPS‘榨果汁’,比如淘宝在算你最中意哪个淘女郎,天猫在算你什么时候想吃车厘子,菜鸟在算卡车走哪条路可能会被雷劈,支付宝在算你何时会从屌丝变成高富帅。”

事实上,包括阿里内部的阿里小贷、数据魔方、支付宝、淘宝指数,外部华大基因的基因测序,都已经能够借助ODPS实现低成本的海量数据处理。

阿里云产品经理汤子楠

换言之,ODPS的适用场景广泛,不仅仅限于交互式BI分析。不过,ODPS目前只对外开放商用了SQL编程接口,主要用于数据仓库和日志分析。更多接口例如Mapreduce、Graph等等,尚未公测。王文彬表示,后续还将基于用户需求开放UDF和Map Reduce,支持用户编程的离线计算;ODPS准实时,支持交互式BI分析;ODPS流处理,支持实时计算等。

在数据处理的规模上,阿里云称,单集群ODPS可在6小时内处理100PB数据,相当于1亿部高清电影。以服务于超过36万人的阿里小贷为例,每天要处理30PB数据,运算100多个数据模型,阿里小贷以每笔贷款3毛钱的成本实现了3分钟申请、1秒放款、0人工干预。

同时,对于用户关心的数据安全的问题,汤子楠表示,ODPS通过了CSA-STAR和ISO27001两项国际云安全认证,在各个环节都采纳了国际上最先进的数据安全管理标准,如用多副本、沙箱技术、https加密及多维权限、多用户协作机制来保证数据不丢失、不干扰、不泄露、不被窃取。这就是说,在ODPS平台上,我的“果汁”不会被别人“偷喝”。

ODPS如何榨出“鲜榨果汁”?

ODPS之所以那么牛叉,是因为它有一个牛叉的“后台”。

类似于选择榨汁机需要考虑超大号加料管、强劲动力的马达、多档速度、更大的果汁杯和果渣收集器等因素,ODPS也拥有强大的海量数据存储、大规模数据处理、高度的弹性和海量数据吞吐能力,这得益于阿里云在2009年开始开发的基于分布式架构的飞天平台,这个平台现在已经支持单集群调度5000台服务器,并支持集群之间的协作,这为ODPS强大的计算和存储能力提供了基础。

据王文彬介绍,基于飞天系统,ODPS在存储、任务调度、任务优化上都有独特的技术,实现了Mapreduce(以及更高级的多阶段DAG)、Graph、MPI等编程模型在同一个计算集群上统一调度。因此,除了 IO密集型的计算,ODPS还能支持计算密集型的迭代计算,例如随机梯度下降。

此外,ODPS通过API提供服务,包括数据上传、下载、计算,所有API请求都是经过认证的,所有API请求都可以走https加密,能够消除用户的安全性顾虑。汤子楠说,ODPS团队对于平台的优先级定义是数据安全性大于可用性大于规模的。事实上,一些大企业和政府客户,如一些银行、飞利浦、美的、中国气象局等,都已经放心地选择了阿里云。

对于100PB规模的来由,汤子楠解释说,这是按照一个集群5000台服务器、单台服务器处理20TB的数据来算,5000*20TB=100PB。这种计算方式,似乎有些“简单粗暴”,因为不同的大数据任务消耗的资源和处理效率往往也不同,但以统一的容量算,差别就只在时间了,阿里云实测是6小时完成处理。更重要的是,很少有用户有那样大规模的数据,阿里巴巴也没有,而且阿里云也不只有一个集群用来提供ODPS服务。据王文彬介绍,阿里云在杭州、青岛、北京、香港都有自己的数据中心,并且数据中心节点是整个区域性的。

据了解,阿里云在飞天和ODPS上的持续投资已经上亿,研发的过程中走了不少的弯路,最终才锤炼成现在稳定、易用的5K集群和ODPS。王文彬说,并不是每个企业都能实现5K集群,更不是每个企业都愿意将这样的能力开放。所以,当阿里云把ODPS开放,大数据的计算环境、技术门槛、人才瓶颈得到了大幅的降低。

哪些人能够受益于ODPS?

在这个数据成为基础生产要素之一的时代,ODPS将是中小企业的福音。他们往往没有资金和技术实力搭建内部的数据处理平台,更不能忍受这个平台为了满足计算和存储的峰值需求而平时闲置。

阿里云表示,希望通过ODPS,能够让更多的中小企业感受和利用大数据的价值,除了产品本身外,后续还会推出一系列的服务,比如帮助用户设计数据模型,引导用户更合理更低成本的使用ODPS,比如对用户进行ODPS和大数据方面的培训,比如提供基于ODPS的可视化BI分析工具等等。这些服务在初期会以免费或低价的方式提供给用户,最大化的降低用户使用大数据的成本和门槛。

 

ODPS的价值

当然,要想真正地从ODPS获益,用户还是需要具备一定的数据分析技能,如掌握SQL语言,或者至少能编写Java程序和脚本,此外还得有对数据的敏感度和对业务的洞察力。也许,未来阿里云会推出更加易用的功能,但目前情况如此。

ODPS也可能是ISV的利好。汤子楠表示,基于ODPS,阿里云希望能够建立有一个数据生产者、消费者、加工者和服务应用供应商组成整个的生态系统。ODPS作为最底层的数据平台,上面应该有各种第三方工具,这样才能吸引各类角色来参与,形成完善的生态系统。

一位业内人士认为,巨头的平台往往只提供通用基础服务,开发、迁移、使用和维护还是有台阶。而且传统行业很多企业也缺乏上云的人才和经验。这就需要大量第三方ISV提供面向细分领域的解决方案。所以,ODPS会给很多数据分析公司、算法公司、行业数据公司带来很好的机会。

ODPS的优势何在?

作为一款云服务,ODPS具有开箱即用、安全可靠、多用户协作和按量付费等特色,让企业用户完全可以不必关心数据规模增长带来的存储困难、运算时间延长等烦恼,直接获得大数据处理能力。相比之下,传统的大数据项目,要自建Hadoop集群,成本、技术门槛很高。

需要注意,尽管ODPS是国内首款大数据存储和计算开放服务,但国外仍有Google的BigQuery、Amazon的Redshift和EMR等于ODPS具较为类似的产品形态,比如都支持海量数据的存储和计算,都支持SQL语法,那么ODPS的真正优势何在?

谈到这一点,除了底层技术的差异性,我们还需要了解阿里云构建云平台的初衷,阿里云的整个产品线,以及ODPS的位置。

在阿里云看来,私有云是一个伪命题,从以前的王坚到现在的王文彬,都强调“私有云”只是将运行在一个虚拟化环境中的传统软硬件堆栈,交付的仍是硬件与软件许可。王文彬说,云计算应当是一个改造现有IT体系的公共服务,是互联网时代的基础设施,云计算的资源必须共享的;而云服务沉淀的数据自然而然地带来大数据的价值,大数据的处理也应当是平民化的服务。

 

阿里云体系架构全景图

王文彬介绍,ODPS只是阿里云产品线的一部分。除了ODPS之外,阿里云还有SLS、OTS等一系列大数据服务,组成一个综合的大数据解决方案,满足用户在大数据领域的多项需求。当然,更上层的行业解决方案,就是前面提到的ISV的机会了。这些解决方案的成熟,也将会反哺阿里云平台。

王文彬还透露,阿里云写了超过250万的代码,直接或者间接服务将近一百万的客户,支持双十一1.88亿的订单没有落单,这样的规模,让专注阿里云的ISV能够更加有力可图,且能够让阿里云提供更加成本优势的云服务。

ODPS的计费模式已经体现出成本优势。ODPS按照使用量付费的,存储1GB的数据,在ODPS大约是每月0.5元。当然,如果用户还要使用第三方ISV基于ODPS开发的应用,还是要另外计费的。考虑到中国网络基础设施、分布式集群中的单台机器故障概率等实际情况,阿里云人性化地承诺,不论阿里云自身还是客户的原因,提交失败的作业都不收费,只对最后一次成功提交的作业收费。所以说即便不算前述优惠,ODPS仍然很实惠。

简单地以存储和计算来计费,而不考虑分析负载复杂度,也许并不是那么严谨,但这更易于计算更易于形成口碑,更符合互联网思维——这一名词现在几乎可以等同于“最高指示”,譬如Pivotal公司大中国区总经理刘伟光近日宣称,要用互联网思维打造企业级基础平台。阿里云不说互联网思维,但互联网思维深入其骨髓,所以,相对一些看起来高大上的大数据产品,ODPS的推广将更易于实现让大数据平民化的效果。

阿里云目前的用户,即使只有很小一部分转化为ODPS用户,也仍是可观的,滚雪球之后的规模效应就会更加不俗。所以,ODPS在未来的市场竞争中会很牛叉,至少在交易型的结构化数据,让用户无须懂得算法、建模或者分析,ODPS大大降低了使用数据的门槛,在数据已经成为基本生产要素的今天,将会有很大的用武之地。

云服务商喜欢说云计算让IT变得和水电一样便利,但技术含量很高的IT服务并不是直接为自然资源搭建一个管道就了事,能把大数据变成亲民的“鲜榨果汁”,阿里云还真是领先一步。

“如果大家也想‘榨果汁’,欢迎来试。ODPS的水龙头就装在阿里云官网aliyun.com上,一个月内免费。”阿里云说。