阿里巴巴将如何运营数据

中国企业家 发表于:13年11月12日 10:55 [综述] DOIT.com.cn

  • 分享:
[导读]让大数据更好用?阿里巴巴是如何实现这种转变?从六个地方入手:确保数据安全、保证数据的质量实现各个部门数据标准的统一让原始数据变得更精细化、获得外部数据、建立数据委员会。

从淘宝创立之时,阿里巴巴就开始搜集平台上的数据,直至支付宝、聚划算、一淘等平台,随着业务的爆发式增长,阿里诸平台上的数据成倍增加,汇集成海。这些数据包括交易数据、用户浏览和点击网页数据、购物数据等等。当海量数据开始聚集时,它们也变得良莠不齐,鱼龙混杂,充斥着大量失真、标准混乱的数据。另一问题是,当海量数据在一起,它们是无序的,不能直接使用,必需要提炼加工。再者,阿里纵有海量数据,却也只是大数据之海中的一个孤岛,无法全部满足平台商家的数据需求,比如商家需要了解用户在其它平台上的购买情况,阿里巴巴迫切需求外部数据。

车品觉称:“一开始,我们在用好数据,但是随着数据战略与平台战略紧密结合,我们开始刻意地去管理数据(保证数据安全、质量和对于商家的可用性),养数据(有意识地收集外部数据),沉淀数据。”

让大数据更好用?阿里巴巴是如何实现这种转变?从六个地方入手:确保数据安全(保护商家和个人的隐私)、保证数据的质量(去除虚假数据)、实现各个部门数据标准的统一(如转化率)、让原始数据变得更精细化(更符合商家的应用情景)、获得外部数据(如并购新浪微博,和其它平台合作、购买数据信息等)、建立数据委员会。

具体做法

1 去除源头污染,净化数据质量

自阿里巴巴数据委员会建立以来,数据质量就成了部门的核心工作,车品觉认为数据质量是大数据的命门,如果将大数据比作水流,“来自任何支流的数据,如果质量有问题,都会带来整个水源的污染。”由于淘宝等平台上的数据往往良莠不齐,不少数据虚假,带来很大的噪音干扰。“有时,在淘宝平台上,对于一个人,我们会看到两个手机,一个iPad,三张信用卡,五个淘宝帐号,收集数据时,以为是多个人,但实际上就是一个人。但如果依照这个数据,商家可能就将红包给了一个不活跃的账户。”为此,阿里巴巴试图剔除虚假的数据,让收集的数据能反映真实的消费情景。比如上面的案例,就要鉴定所有这些账户、信用卡等是否为同一个人所有。再如,阿里巴巴经常要做产品界面测试,有时临时修改界面,会一下子多出一个按钮,这就会带来大量误点击操作,数据收集时,就会得到很多失真的用户行为数据。阿里巴巴的数据人员目前的工作就是要将这些失真的数据剔除,或者将数据还原到真实的场景。

2 打破分割,统一数据标准

统一数据标准,就是让净化后的数据流得以汇集。阿里巴巴下属各个部门业务重点不同,对数据的理解不同,因此数据标准往往各不相同,比如转化率。要将这些数据汇集成大数据之海,就必须统一标准,这也是阿里巴巴数据委员会目前重点推行的项目。

3 精选+加工——让数据精细化

“目前,我们需要的用户数据,平台还给不了。”阿里平台上的一个企业如是说。很多企业希望阿里巴巴能将用户属性的标签分得更细(不仅仅按男、女用户,还进一步按不同消费特点、收入细分)。小也化妆品创始人肖尚略认为,“平台数据的细分是基础,细分好,企业才能用好。”数据就像炒菜的食材,不同细致程度的食材炒出的菜,口味不一样,车品觉这么看。

如何让数据精细化?阿里巴巴根据各个商家的应用场景,将原始数据打上更细致、对商家更有参考价值的标签。以淘宝平台为例,一方面收集用户信息时,专注对商家更实用的内容,比如对于大学生用户,除了搜集他们的地址信息外,还通过其它渠道搜集其房租的租金,从而了解对方的消费水平,将这些数据提供给相应的商家。另一方面根据商家的应用情景,对数据材料做初加工。“比如,如果我们筛出一个人是否戴眼镜,戴多少度的数据,就对卖眼镜的商家起到了很大作用。”再如,如果一个人去母婴超市里面买东西,不一定能证明他有孩子,但如果这个人是女性、年纪又合适,这个人有孩子的可能性就很大。不断加入的其它证明信息,让这个消费者的数据变得越来越精细化。

在数据精细化思路下,2011年底,阿里巴巴的支付宝平台开发黄金策产品,车品觉带领团队处理了1亿多活跃的消费者数据后,拿出500个变量,试图用它们来描述消费者,最终让企业能够随时调用变量,获得用户信息,比如某一类包含使用信用卡数量和手机型号等具体信息的客户数目。

2013年,天猫开始研发适用于天猫商家的CRM系统,通过对会员标签化,让商户了解店铺会员在天猫平台的所有购物行为特点。

4 海纳百川,纳入更多外部数据

在阿里巴巴平台上,大多时候收集的是顾客的显性需求数据,如购买的商品和浏览等数据,但顾客在购买之前,就可能通过微博、论坛、导购网站等流露出隐性需求。仅仅做好自己的大数据是不够的,还要纳入更多外部数据。

2011年以前,阿里曾尝试通过收购掌握中国互联网的底层数据。2013年4月,阿里巴巴收购新浪微博18%的股权,获得了新浪微博几亿用户的数据足迹。5月,阿里巴巴收购高德软件28%股份,分享高德的地理位置、交通信息数据以及用户数据。而其它并购,包括对墨迹天气、友盟、美团、虾米、快的、UC浏览器,都招招不离数据。通过这些并购,阿里在试图拼出一份囊括互联网与移动互联网,涵盖用户生活方方面面的全景数据图。

5 加强数据安全的管理

很多淘宝卖家希望阿里巴巴能加大数据开放的步伐,对于阿里平台来说,这并不是一件容易的事情,因为这关乎商家和消费者的隐私。商家不希望竞争对手获得自己的机密信息,消费者也不希望被更多干扰。

阿里内部专门成立了一个小组,来判断数据的公开与否,把握“谁应该看什么,谁不应该看什么,谁看什么的时候只能看什么。”

6 组织体系支持——建立数据委员会

阿里巴巴的数据来自各个部门,无论是数据材料的质量、精细化的保证,还是数据安全,都不是单个部门能完成的,需要全局性安排,迫切需要一个上层组织结构。但是成立什么样的组织机构合适?在阿里巴巴看来,数据的工作实际上主要还是由各个部门的责任,毕竟它们把控着源头,另成立一个凌驾于各部门之上的中央数据管理机构,容易让各个部门把责任直接推卸给新机构。

2013年,阿里巴巴成立了虚拟组织——数据委员会,委员会包括底层数据负责人、支付宝商业智能负责人、无线商业智能负责人和一名数据科学家,数据委员会更多地以协调会的形式,来指导、协调各个部门形成合力,实现从大数据运营,到运营大数据的转变。

[责任编辑:李晓菲]
去IOE是今年最火的概念之一,对于被直指的当时方——甲骨文,又是如何看待的呢?
官方微信
weixin
精彩专题更多
存储风云榜”是由DOIT传媒主办的年度大型活动。回顾2014年,存储作为IT系统架构中最基础的元素,已经成为了推动信息产业发展的核心动力,存储产业的发展迈向成熟,数据经济的概念顺势而为的提出。
华为OceanStor V3系列存储系统是面向企业级应用的新一代统一存储产品。在功能、性能、效率、可靠性和易用性上都达到业界领先水平,很好的满足了大型数据库OLTP/OLAP、文件共享、云计算等各种应用下的数据存储需求。
联想携ThinkServer+System+七大行业解决方案惊艳第十六届高交会
 

公司简介 | 媒体优势 | 广告服务 | 客户寄语 | DOIT历程 | 诚聘英才 | 联系我们 | 会员注册 | 订阅中心

Copyright © 2013 DOIT Media, All rights Reserved. 北京楚科信息技术有限公司 版权所有.