如果有一天,你有机会去应徵全球电商龙头阿里巴巴集团副总裁的助理,这位每天掌管阿里巴巴上千亿营业额的主管给你出了道题目:
你一个礼拜过后再来面试,但在这一礼拜内,你有两个选择:一个是当我不在家时,你可以在我家待半小时随便看。另一个是,你这个礼拜有半小时可以跟我吃饭,你可以问我很多问题,你要选哪一个?然后下礼拜我们再面试,看你对我的了解有多少?
问这个问题的是阿里巴巴数据委员会会长车品觉,同时也是阿里巴巴集团副总裁,历任eBay和阿里巴巴,拥有数十年的大数据经验,每天与阿里巴巴成千上万的数据为伍,无论是年年创下惊人销售额的双十一购物潮还是马云日前说砸了十亿人民币打击假货,这些都与大数据脱离不了关系,身为全球最大的电商平台,恐怕没有一家公司比阿里巴巴更有资格讨论怎么用大数据,而在阿里巴巴集团内,车品觉堪称大数据的第一把交椅。
回到面试,当你今天面对着这个全中国首屈一指的大数据专家,你要怎么透过数据去剖析这个人?家,是一个人最毫无防备的地方,透过观察家中摆设可以获取许多有价值的个人资讯,但当面问问题,可以从本人口中获取情报,了解对方,到底哪一种数据蒐集策略才是正确的呢?
(图说:阿里巴巴副总裁车品觉拥有丰富的数据实战经验,他指出很多企业常陷入数据迷思,为数据而数据。照片来源:林衍亿摄。)
车品觉笑说:「观察一个人的行为只能回答一部分的问题,如果不面对面讨论的话,很多问题的答案是你怎么蒐集都蒐集不来的,这就是用数据拿数据(data gets data)。」车品觉一语道破大数据的迷思,他认为,现在很多企业都陷入了数据迷思,为了数据而数据,却忽略了更快更精确的方法,就好像去观察一个人的家想要了解这个人,却忘了其实直接问本人更快,「所以如果你今天很担心大数据的问题,你不如去担心将来有很多人会为了数据而数据,多愚蠢啊,舍近而求远。」
用面试说明现在许多企业陷入的数据迷思,俯拾即是生动的例子,将生硬难懂的大数据说得动听、说得生活化,这就是在大数据中打滚数十年,自称「每天在玩数据活儿」的阿里巴巴副总裁车品觉的魅力。
车品觉日前来台宣传新书《大数据的关键思考》,在接受《数位时代》专访时,他分享了三个常见的大数据迷思和八个大数据实战密技,具体而微地解说现在企业在透过大数据变现的过程中,遇到了什么样的问题以及该如何解决,以下为专访内容摘要:
三个大数据迷思
1.忘掉大数据吧!如果大数据已经成为大家用数据的常态了,你何必特别讲他出来呢?98年的时候互联网是一个流行语,现在还有人会说他是流行语吗?现在有很多电子商务公司叫做传统电子商务啊,多悲哀啊,有人还以为电子商务是新东西的时候,已经有所谓的传统互联网公司。
2.数据也只是创新决策其中一部分,他只不过是新工具,也不用把他想得这么万能这么神。不是所有的问题都是数据问题,也不是所有的问题都是大数据问题,你就把他想成单纯的工具使用,该用刀就用刀,该用枪就用枪,有些地方会比较适合使用数据,不用太神化他,太多的行外人把他讲得很神,反而我们业内人不敢说得太神话,因为知道兑现不了。
3.不要为数据而数据。以前我们做一B2B的网站,客单价不停地掉,我们用很多数据方法去解决问题,但都没有起色,有一天早上我觉得不对,我说我们不要看数据了,我跟工程师说,你在顾客进网站时问他:「你是帮自己买东西吗?」结果有50%以上的人说对,你知道我花了半年的时间去寻找答案,这根本就是为了数据而数据啊,所以如果你今天很担心大数据的问题,你不如去担心将来有很多人会为了数据而数据
(图说:车品觉在新书中噼头就说「忘掉大数据吧!」,未来数据将会成为每家公司的常态,无须多言。照片来源:林衍亿摄。)
八个大数据实战密技
1.不要说大数据,就说我们使用数据的时候到底我们知不知道这个背后数据的数据是什么?如果我的判断是对的,你要用什么数据去证明我是对的?比如说今天气象局说今天的温度是12度,那我问说,过去来讲这个环境中,他预测12度的正确的概率是多少?错的概率是多少?这就是数据的数据,我要用一个数据之前,我一定会问,这个数据可不可信啊,可靠性是如何,没有对数据的可靠性,你就先使用,你是盲目地使用,所以数据的数据是一个层面,决定可不可靠。
2.中小企业先用数据量化自己,再来谈大数据。如何用好数据来量化自己?用数据理解自己,量化自己,我觉得在这个基础上去思考我们有什么东西是可以用大数据的?这样会更有效。小企业应该去尝试用数据量化决策,而不是大数据,没大这件事,就是用数据做决策,其实公司本身内部有的数据问题很多的,像是大部分公司客服数据从来没跟公司主要数据连上,因为很多公司的客服中心都在外部,所以这个数据他拿不到,他不知道消费者的反应,这个数据又无法跟你的经营数据做关联,所以整个数据在一个中小企业里面也是四分五裂的嘛,你在这个地方没用好的情况下,你居然说你想用大数据,其实是有点难以理解。
3.数据案例很多会失败都是因为蒐集数据归蒐集,但蒐集起来之后这跟塬本的数据决策是没有办法合在一起的。这不仅线下会发生问题,线上也有这个问题,你可以问问现在管理首页的人,他管理首页有多少是根据数据去设计的,你不如问他们如果他们改版首页,他们如何评估这个改版后的首页是成功的?用什么数据去决定?
4.数据的刷新频率是什么?这个值非常关键。刷新得快不一定比慢好,有些地方要刷得慢一点。有些东西太敏感了,你刷新的数据不一定正确,比如你要买一个二十年的保险,就是很长远的东西,或者你要做重大投资,在这个时候你应该去看历史的稳定数据,如果今天你刚从电影院看完一部戏,你刚看完想吃麻辣火锅,这秒钟,你不需要猜他的历史性格,你应该去猜他下个场景会是什么,这个时候地点的数据非常关键。
5.真正的数据创新还没出现,现在大部分的企业没法串起数据、算法和应用创新,没有人既懂商业又懂数据,要抓到这种机会点的人极少,我算是,但是我只是电商和零售领域的专家而已。
6.数据的创新来自两点:一、把不该再分裂的数据分裂;二、把两个不该拼合的数据拼合。这会产生很大的力量,例如性别不是男就是女,这两个东西应该再也不能分裂了,但在数据上我们可以说这个人的态度有三成很女生,有七成很男生,他的态度有男生的态度在里面。有些数据已经是塬子了,但你一剖开发现不是塬子,还可以再分裂,在这个时候分出来的数据的破坏力或创意是很大的,你没想过嘛,这对推荐引擎来讲太关键了。商业的世界很竞争,当两个敌对公司一结盟,像是根据开车数据调整保费,就是一个数据结合的创新案例。
7.我看到的大数据项目都是失望比较多的,很多大数据项目都还在实验室,当这些东西到企业就不行了,企业需要准确,还有很多问题是要分场景化的。
8.数据分析师要量化自己的量化,这对我们这行很重要。我们整个行业最讨厌什么东西你知道吗?你找一个人去准确算出一个东西,不难,但是六个月都准,很难,时间一长,就不准确了。时间一长,整个模型是用历史数据建立出来的,当历史数据变得越来越不重要的时候,这个模型就会变得没那么准确了,这个时候你就要改进你的算法了。