京东VP马松解读京东大脑、数据罗盘和大数据应用

未来所有的企业都将是互联网公司;而现在,所有成功的互联网公司实则是大数据公司。

对于很多传统企业来说,CTO或CIO考虑的,更多的可能是怎么在企业内部建立一个大数据平台,从内部的开放共享开始。这是一种看似保守实则稳健的思路。

那么,做互联网+,无论是传统企业还是走向成功之路的互联网公司,能从成功的消费互联网公司也就是大数据公司借鉴到什么?

除了BAT,恐怕京东的大数据建设和应用也是业界关注的焦点。在12月10日举行的“2015中国数据经济峰会暨易会CIO峰会”上,京东集团副总裁马松介绍了京东大数据的建设和特色应用。本文以该发言为基础结合公开资料整理而成。

11

三级研发组织

在大数据研发方面,京东在整体上分为三级研发组织。最上面是大数据实验室,与清华大学建立了紧密的联系,合作进行大数据的研究。实验室由科学家带队。

在实验室之下是第二级组织,是大数据平台研发部门,该部门有数百人;还有一个100多人的团队,专门进行京东的搜索以及个性化推介的研发。这两个团队在平台及引擎层面提供技术支撑。

第三级组织在应用层面。京东有很多研发事业部,比如采购、仓储、物流研发事业部,这些研发事业部也都拥有自己的大数据创新研发团队。他们会基于大数据实验室的算法、模型,以及大数据平台、引擎研发组织的成果,结合应用层业务,开展研发工作。比如著名的“供应商数据罗盘”,就是大数据创新组研发出来的业务层面的产品。

京东的促销人员、仓储管理人员等等,会专门使用应用层研发出来的大数据分析工具,分析业务的发展情况,指导业务的发展。

在此基础上,京东设立了一个技术委员会,由三级研发组织中的关键的高级人才组成,这个组织是虚实结合的。通过技术委员会这个虚拟组织,把三级研发结合在一起,这样大数据研发才可以真正靠组织的力量落地。

大数据人才

京东大数据实验室有两类人才,一类是数据科学家,专门在技术模型、数据模型等方面进行研究;还有一类是算法工程师,专门进行计算算法、搜索算法、关联算法等方面的工作,他们会大量应用京东的数据来构建算法模型。

在平台研发、引擎研发层面,一方面是大数据平台研发工程师,另一方面是数据处理研发工程师,进行数据清洗、转化,进行多维化的切分等等。在数量上,数据处理研发工程师相对多一些。

在应用层面,有商业模型建模工程师,还有就是数据分析师,他们通过算法、模型,把结果分析出来并进行呈现,就像一份报表,能看出来存在的问题或是商机。数据分析师能够指导和引领业务,这是IT价值非常重要的一部分。

当前,商业模型建模工程师在京东比较抢手,更不用说传统企业。现在,大量的传统企业在信息化方面已经走过了10年甚至20年的时间,积累了大量的数据,这些数据都保存在企业内部,但是企业对这些数据无能为力,看到这些数据不知道能干什么。原因就是企业的IT团队缺少商业模型建模工程师。

京东大脑

“京东大脑”是京东的大数据平台,提供给各业务方使用,在京东整个研发体系当中相当于“大脑”的角色。

京东在基础层面商品,型号,用户,供应商等主数据,以及交易数据,就是用户的订单、支付情况。

还有一类很重要的数据就是流量数据。传统企业在实施和使用ERP的时候很少见,但对于电子商务非常关键,这一类数据,企业务必要注意收集。

流量数据包括消费者从哪里进入到京东的主网站,然后接下来怎么一步步点击,在哪里停留,在哪里有疑惑等等。在这个过程中,点击数据,时间流数据都是非关系型数据,由于电子商务无法看到每一个人,所以这种非关系型数据记录了消费者的行为习惯,非常具有价值。

在基础数据层之上,京东建立了一些知识层,首先有小区画像,到底有哪些特征,居住哪些人;还有用户的画像,用户画像就是针对一类人群,或者某一个人,具有什么样的行为特征;还有商品画像,供应商画像。

与此相关的有一个比较专业的词,叫“打标签”,就是给数据打标签,这是现在做精准搜索和精准推介的一个非常关键的词语。京东很多算法能够跑起来,产生效果,与画像打标签不无关系。

在这之上是服务层,提供预测的API、引擎、算法、多维报表,京东会提供相应的产品、工具包括引擎,作为服务,供上层做创新应用而调用。

在京东大脑整个战略里面,还有一个衍生的战略,就是“京东万象”,是一个综合数据开放平台。该平台已经拥有了全社会特征的样本数据,但是这些数据仍然不足以支撑相关的分析,所以京东通过开放平台,把整个社会的大数据联通在一起。这些数据涉及金融、电商、运营商、生活服务。

京东大数据平台及其应用

京东是如何构建自己的大数据平台?在这方面,京东并没有原创的技术,使用了业界开源平台。其服务器数量达数千台,业务系统亦达数千个。日均数据吞吐量在PB量级。关于应用,包括但不限于以下内容。

用户画像。由于消费者到底怎么想,到底想购买什么,到底购买了什么,对什么商品还比较犹豫,等等,这些行为围绕着该消费者就会产生一个完整的数据,京东会根据这些数据进行用户画像,进行个性化的推荐。据估计,京东有1/3的购物行为来自于推介购物。

用户画像还可以进行精准营销。比如,很多消费者曾收到过京东的EDM邮件,这些促销邮件并不是群发的,而是基于促销需要,根据目标客户群体进行的促销邮件推送。

智能客服。当消费者第一次使用智能客服的时候,可能感觉冷冰冰的,而当跟他对话很多的时候,消费者会发现,客服他对到底想问什么问题越来越清晰了,这后面其实有些用户的数据,用户的画像在支撑。当前,京东数千名人工客服人员仍然满足不了巨量的电话咨询需求,而智能客服就提供了网上的咨询通道。

供应商数据罗盘。有一些创新是关于采购的,现在京东有一个服务叫“供应商数据罗盘”,专门指导供应商如何进货、生产、制定节奏。京东也有很多的采购人员,往往决定向哪个供应商采购,采购什么产品,什么时间采购。当前,京东已经是全品类运营的平台,生活中用到的很多东西都可以在京东上买到,采购人员根本没有办法进行决策,因为型号,供应商,品类太多。

因此,京东大量的采购决策,都是数据在驱动,而不是靠经验判断。在这里面,通过辅助工具,可以预测产品的销售情况,进行自动补货。什么时候向供应商补货,库存是不是有滞销、挤压,如何选品,如何定价,这里面都有数据的支撑。

搜索推介。现在整个京东网站分了好几个层面,在列表层面、搜索层面、单品页,京东会向消费者推荐具有关联度的商品。从数据的角度,就是在各个层面都有不同推荐的算法。尤其在移动购物方面,由于手机的屏幕限制,哪种商品放在第一位,哪种放在第二位,都有讲究,目的就是个性化的购物。

搜索定价。这个功能,会基于当前的销售情况、购买情况、订单情况、收藏情况,做一个价格的浮动。但是这种价格不是拍脑袋,而是有数据支撑的。比如京东的一个旅游产品,应用了搜索定价之后,机票的订单翻了一倍。

交易风控。很多人都知道京东白条与虚拟应用卡。给消费者多少额度,其实是通过很多数据来支撑的。由于消费者有很多的交易数据、点击流的数据等大量的用户行为,这些数据汇集到基础数据库,再基于“京东万象”共享的个人信用数据,汇集成完整的数据进行判别并授信。这是京东虚拟信用卡、京东白条的风险控制规则。