大数据商策联盟创始人俞楠:如何愉快的和别人讨论大数据

2014年12月2日DOIT编辑北京报道:2014(第十届)中国存储峰会今天在北京召开,大会以“掌控数据经济,重塑商业价值”为主题,诠释在IT走向DT时代下,如何通过数据重塑商业价值。大会共邀请了 16位顶尖第三方嘉宾,数十位专家,带来了35场前瞻性演讲+2场圆桌讨论,并首次推出硅谷创始人访谈和存储夜宴活动!

在当天下午的大数据分论坛上,来自大数据商策联盟创始人俞楠与大家一同分享了《如何愉快的和别人讨论大数据》。

以下是演讲实录:

俞楠:大家好,我原来也是在存储行业做了差不多快15年。在15年前,我在集成厂商做过,刚才他们讲的一些欧美的企业厂商我也工作过,我自己本身从技术开始,一直跟着DOIT,在行业当中也看到很多问题,今天跟各位分享一下我们的经验和观点。

为了搞笑一点,我把我的抬头改成无证数据科学家。上午有一位做科学数据,我叫数据科学,其实这个没有什么太大区别,本身还是在于对数据的使用。前面很多专家,同行都讲各自的方案,其实这里面会有一个问题。我们实际上发现业界所做的这些技术已经远远超过了产业界的需要跟发展。事实上我们假设它在处理数据的时候会碰到各种各样的问题。比如处理新闻的慢,带宽不足,事实上他们还没有到这个阶段,在这个阶段之前有一个更前端的问题,就是他们怎么用的。所以,在这个角度,我们可以从商业的角度谈一下我们怎么看待大数据这件事情,你跟别人聊天是怎么聊的。

所以,今天我的议题大概也是从三个方面开始进行着手。第一、跟大家进行一些简单的交流,把我对大数据的看法跟认识跟大家做一些讨论。第二、刚才听了很多技术,我分享一些案例,这个案例产生的时候,那时候没有大数据。但是,你竟然的发现这家公司所做的就是大数据,而且是非常成功的大数据。最后给大家做一点小小的科普,虽然来的都是专家,但是这个科普会给大家讲一些可能大家以为很熟悉,其实你发现完全不是那么回事的技术。

从交流开始,大家定一下什么是大数据。如果把每个人对于大数据的定义比作盲人摸象,其实每个人对大数据的定义都不一样。你们认为大数据可能是一种思维,是一种武器,有些人甚至认为它是一种技术,像今天我们会偏重大数据的技术角度。还有些人认为大数据是将来竞争的手段,我们从IT转到DT,转的就是资产。还有人认为大数据代表商业的环境,其实这些概念都对。所以,我们可以这么想,大数据是一个整体的产品,不能脱离任何的一个层面。你跟别人谈大数据,怎么把这个话题真正切入到大数据范畴。

这是一个悖论,维克托·迈尔-舍恩伯格的《大数据时代》里面谈到他的一些观点,我认为也对,也不对,他说数据越多越好,其实多是一个相对概念,多少算多。依然取决于你取得数据的能力。数据量的增大会带有原有规律的严重失真。今天中午吃饭跟几个专家在聊天,他们说其实业界对大数据的定义都认为Excel做透视表。数据量的增大只会造成结果的不准确,所以我们刚才谈了很多,如何处理它,如何处理瓶颈,其实前面还有很多,构造怎么清晰,怎么过滤,这才是大数据之前要做的事情,完全才会到我们底层,你用Hadhoop,还是用类似数据库。我们今天这个论坛的主题叫做用大数据挖掘商业价值,其实应该把商业放在第一位。

样本=全量,根本不存在全量就算有,你也得不到,任何企业只能拿到相当有限的数据。在国内P2P音容非常火,有一家排名前三的P2P,他怎么做P2P的风险审核,找了200多人的风控团队拿着Excel为表看,分初控、中控跟终审,这样的一家公司,公司发展规模这么大,每天处理200笔P2P贷款业务。如果把200笔想象成IO,7200转一秒钟过了IO可能都达不到峰值。

第二、放弃精准性,接受混杂性,因为你要的并不是趋势,而是根据在座每一位的特点定制出一个产品,这才是将来商业需要做的。有一些人是投资者,还有一些初创的,其实就算初创型的公司也分不同的行业。

第三、知道“是什么”就够了,没有必要知道“为什么”数据最终为个人服务,这个为什么谈到个人隐私,就是这个,如果个人只是作为一个ID,或者基于这个ID一系列数据分析汇总统计,你知道数据不代表什么。所以,这里其实每一个话都要设一个前提条件,如果没有这个前提条件,你跟别人聊,我是大数据,大数据就是样本等于全量,这个其实是开玩笑的,很典型你不是甲方的人,你也没有做过甲方。

这里有一个迷思,是大,我们这里讲了Google、或者百度,或者Bing。上午一个专家讲,如果你在阿里上搜索一样东西,然后你把浏览器关掉,你这个时候打开优酷,或者打开别的什么网站,你会发现旁观有一个你刚才浏览过的东西的推荐,这是基于Cookie做的。如果你在阿里上浏览一个冰箱,你发现这个东西价格差的太大,我转到京东上看一下,然后到京东上看完,京东不错,我又到苏宁网站看了一下,最终在京东下了订单,这时候你再打开浏览器,还是会有,因为阿里不可能知道你在京东上已经买完个东西,谈何精准营销呢?所以,事实证明光“大”是不行的,真正的指标是什么?这个值得大家思考。

还有一些迷思是统计算法,上午谈到过了双十一以后,哪个地区的女生会买什么Size的内衣,会给你一个统计,因为这个统计非常简单,一看湖南省发货量C Size多少个,这些数据未必百分之百准,但是它代表一定的趋势。还有一个他不关心原因,而关心相关性,但是核心的问题不在于相关性。你看一下,其实基于数据科学,或者我们一直强调数据科学,如果大家关心这几年趋势的峰值服务,你发现大数据在前两年属于顶峰期,今年已经很下降了,跟前几年的云计算是一样的。今年取而代之在大数据的就是数据科学,因为它不是由数据出发,而是由业务作为出发点。所以,它之间的相关很可能不具有价值,所以这是一个英文的职业,所以说,这个我们所说的数据科学家不应该是一个人,它应该是一个团队,是业界专家,优秀的数据科学家。如果我们做团队,怎么从业务出发,从里面挖掘数据呢?

目前来讲,我认为现在很多大数据分析都是伪大数据,我都会从几个可操作成本考虑,目前大数据在商业方面的用途主要集中在三个方面。第一、Social-CRM。第二、推荐系统。第二、营销系统。因为这两个系统的容错空间比较大,推荐给你错了,大不了再推荐一次。如果你把大数据用在一个商业指标上,让今年的股票上升一块钱,你看看敢不敢这样做,因为它不准。所以,我们今天看到营销,这也是为什么你拿样本,拿全量,不如拿到一个人小规模的样本,因为你不了解他。

所以,这个里面特一些我觉得稍微比较老土,或者学术化的观点。大家都是做IT的,可能有一天都会变成一个创业者,你任何思考角度不应该从底层角度思考。比如要学会量化事物,大数据主要做量化分析,如果妹子们将来跟男朋友说,你不爱我,我建议你这样讲,上周你陪了我七天,每周1个小时,本周你陪了我3天,每次25分钟,从数据表明,你对我的关心在下降。第二、不要现象分析及要做预测。大部分时间,其实这个商业应用是市场或营销人员。对于技术人员,更多考虑实现的手段和效率,大数据其实应该是怎么去实现?比如你有大量的文本文件,有大量的语音语义的分析系统,比如刚才讲了一个叫舆情分析系统,就是评价这个人的倾向。上海一个汽车厂说,有了这样一个东西真好,微博,我可以在上面做民意调查,有一款样车要投产,他发现转发率非常高,结果亏了几千万。再仔细一看,发现很多人在底下转的是说从来没有见过这么难看的车。还有一句,重音放在哪个字节上,这句话完全有不同的含义,但是重音在大字上是看不出来的,比如这句话?我没有说你不好,把重音放在“说”上,或者把重音放在“你”上,我没有说你不好,我说小明不好。所以,这个方面科大讯飞走的非常领先,可以根据你的语音得到你的情感。还有不单是互联网思维,更要移动互联网思维。手机可以作为你器官的一个延伸。数据要获取,前提是要被量化,然后是情景化,这个采集好,才能做后面的分析乃至于挖掘,所以第一步非常重要。

我问过很多人,关于量化是什么意思?我做过小测试,如何量化湖里鱼的总数,答案非常多。其实这里混淆了一个概念,就是量化跟精确技术是不一样的,你要做的只是把这件事情量化,但是不是精确的使用这数据,比如今天来了76个人,我看了一下今天大概来了70多个人,这是量化。海外科学家怎么做的?它先抓一批鱼,假设1000条,然后把鱼打了标记再放回去,过一段时间,再打一批鱼,发现有多少打了标记,如果还有50%,这说明有1000条左右。这其实才是我们今天要讨论的,就是要设定情境,情境在学术当中叫基于上下文。如果你要获取大数据资源,从哪里采集数据,一定要设定一个情境,情境构造一个特定的环境,情境是属于每个人在这个情境当中所做的事情是完全不一样,会根据环境进行区分,而不是你这个人进行区分,这是大数据获取的第一步。

我们可以看到,如果把情境的影响因子解释成X,当情境变化的时候,这件事情会发生改变,比如同样今天坐在这里,假设今天换一个情境,假设是复旦的校友会,情境完全不一样。比如这些情境,流失模型、购物篮分析、推荐系统,比如有一个客户画像系统,基本上通过手机号可以知道你年龄是多少,因为手机号码不会告诉你性别,平时买过什么东西,大概可能住在哪里?这怎么可能?当然有可能。

如果在一个大数据的系统当中,可能涉及到的东西非常多,在树干上可以延展出这么多枝丫,宏观的、微观的,做洞察的,我们上个星期给车联网的做了一个画像,这是宏观的,另外有一个微观的。另外这群人,它的社交频度都不一样,有一个挺有意思的现象,就是车友会,你觉得你开宝马能不能加入马萨拉迪的车,这是不可能的,但是谁规定开包车的人不可以认识马萨拉迪的人,是人为的画了一些界限。还有一个做完这些分析以后,你最终要做汽车后市场,举个例子,怎么做汽车后市场,如果我知道你开的是别克,2012款,红色,2.0T排量,当时买车预估28万,经过两年,假设没有任何大的碰撞,现在车假跌到18万。现在要对接一个金融,就是要推一辆奥迪A1车,这辆车30万,我为什么要推给你,因为你在别的网站经常看这辆车。所以,这就是我说,他知道真正精准的了解你,才能做真正精准的匹配,这才是大数据将来做营销的意义。所以,一定要看到微观和宏观的画像。

这个人的社交、活跃度,这个比较简单,它只是代表他不同的纬度而已。从平台角度来看,排除掉刚才我们所讲的任何的公司,产品,所以公司的大数据架构几乎都是这个样子。在前面少了什么东西?我们把采集系统跟清洗系统,有人知道ETL,ETL其实很难,因为你要新打标签,再做清洗,再做过滤。上海有一个实时的抓套牌车,如果你车停在红绿灯这边,首先有一个摄象头,把你的车牌拿到,OCR扫描出来,放到库里做碰撞比对,库里大概10亿多,原来碰一次到半个多月,等你车开到安徽,它在里面还没有,现在要求5秒钟之内,你想这个难度有多高,这就是实时的,而且还没完,分析出你这辆车是套牌车,要通知刑警在下一个可能的路口布控把他逮到。交通警跟刑警没有关系,你怎么调配它的系统。还有要实时相应的是12306,买火车票,你说你按一下查询,结果它半个月以后告诉你没有票了,这简直是开玩笑,你不用回家了。所以说,不同的反映对于大数据的架构不一样。比如金融,上海有一家公司叫大智慧,做股票分析行情的,它的就是把所有数据拿回来,清洗以后给你一个新闻,几千亿。所以,其实不同的大数据下,应该选择不同的应用,这是我们在前端看到的更大的问题。

讲一下算法,算法要做什么东西?你想解决什么问题,你就后面有什么算法,我等一下会跟大家讲一个算法,这个算法在我的公众号上也有这个例子,这个例子非常经典,它里面就用一个算法,我的想法,希望不管用不用IT技术,这个算法可以在一分钟之内学会。这是其他的一些常用算法。

今天重点想跟大家分享一个案例,这个案例是2009、2010年做的,在当年没有大数据,但是这个案例非常经典。这是一个啤酒厂。这家啤酒厂本来要倒闭了,厂里有5000多人,在中国的南部,一个本地的小啤酒厂。他发现原来啤酒产能要靠代理商下订单计算出来,下10万箱,生产10万箱,总有淡季、旺季。所以,厂长找到我们,我每天就想三件事儿。第一、产能怎么调整的准一点。第二、怎么知道别人爱不爱喝我的啤酒。第三、我每天养5000多人,他没有说Hadhoop怎么做,厂长不关心这个东西,厂长关心这个东西,这个是做商业。所以,你一定要把一把手拉进来。

其实我们想了一个业务目标的转化过程,厂长提了三个问题,中国人开会,一群人开会,说怎么才能调整,我需要知道市场上真实的数据,不是代理商给我10万箱,8万箱。第二、需要市场调研,原来没有做。第三、根据上面的两点制定新的销售目标,这时候生成了一些最终的他可能要生产的东西。

当时厂长说,第一、每个产线工人都去给我干销售。第二、每个人配一台智能那个什么东西。第三、工人的工资根据销售量来决定。工人有固定工资,产能多少跟你没关系,销售的工资才是根据销售量的。这是一个很大的创新。然后他做了这样的业务,大家对这个LoGo有没有了解,当年的Windows系统。他说你们明天不要来上班了,中间给我一家一家问,只问两个问题,你昨天买了多少箱啤酒,今天你还进多少箱,所以第二天可以精确到瓶。然后又延伸出几个非常有意义的东西。第一、电子签到,你不要来我们这儿,直接从街上小河边签到。第二、终端情况,他最后做到多细,娃哈哈送水站,要多少箱啤酒。签约情况。第三、GPS拜访路径,这个非常恨,这个东西才是最好玩的,本来当时工人就差那啤酒砸我了,后来说我怎么知道你在不在,原来一小时上报一次地理位置,现在你每多出一家,给你一块钱。后来工人提出能不能把上报时间改称一分钟,因为我跑的很快。后来他说为什么我去过那家,你没有我的路径,他会求你把他的路径报上去。这时候你跟他说,这张图出来,为什么河那边没有人买我们的啤酒,这是每天都会有,派一批人,你承包这一片,你承包那一片。到最后达到一个反效果,本来要开除5000工人,结果发现工人不愿意回来上班,产线上没有工人。

他做了什么呢?第一、移动营销新平台。第二、精准考核。第三、数据上报准确率提高。第四、对竞争对手的掌握了如指掌。第五、经销商的服务质量监控。第六、市场动态精准化。第七、及时提供决策依据。这家啤酒厂在广西那边。

讲完啤酒,跟大家科普一下啤酒这个东西。大家知道啤酒与尿布这个案例吗?这个故事我先重复一遍,就是美国一家超市沃尔玛,发现啤酒和尿布的销售是呈正关联,所以把尿布放在啤酒边的位置可以带动销售。他怎么知道这两个东西有正相关。这个故事有两个意思,第一、大家对大数据实际的使用机制不了解,只知道Hadhoop,还是在内存应用,其实企业主关心这个,他想问你,如何用数据和算法给我带来实实在在的利润,所谓价值就是利润,不然你怎么叫商业价值?谈到赚钱,谈到利润,大体就两个思路。第一、提高门槛。第二、发现一些规则。你怎么发现?其实啤酒和尿布的关联性只为了提高销量。什么叫关联呢?假设你买了牙膏,你会发现旁边还有一个柜子卖牙刷,这是最基本的尝试。啤酒和尿布为什么深入人心呢?是因为你发现这个组合很有想象力。因为它超越了种族,竟然能关联起来,你说尿布,或者不同品牌的尿布它可能有关联性,或者婴儿用品,或者奶粉,怎么跟啤酒有关联性呢?所以说,这个最大的问题在于它是怎么超越种族进行关联?给大家隆重介绍一下这个算法,叫Apriori。

假设现在有六张购物清单,现在开始数数,每种东西出现在几张购物单上,比如大家看到火腿,1345、鸡蛋是125号购物单。最后火腿占4/6,鸡蛋占3/6等于。第二步,假设出现概率在50%,这个属于偶发事件,把3/6以下的全部去掉,这个时候发现只有四张。接下来把这四种两两组合,这样会产生六种组合。第三件事情,还是数数,数一下这种组合在购物单中出现过几次,这是原始的购物单,这是数出来的购物单。火腿和鸡蛋出现了两次,火腿加啤酒出现两次,火腿加尿布出现了一次,后来把这个算法做到沃尔玛POS机,沃尔玛买了装了这个算法的POS机才有这个案例。还有一个问题,我要把这两个东西放在一起及是买啤酒的人伸手买尿布,还是买尿布的人伸手买啤酒呢?

买尿布的购物单一共四个,在这四个购物单中出现的比例是1、2、4、6,而在这4个购物单中出现啤酒的购物单是246,因此是3/4,类似的算一下啤酒,买啤酒的购物单一共有3个,分别2、4、6,而在这3个购物单中出现尿布的购物单是246,因此是百分之百。所以其实尿布和啤酒,还是啤酒和尿布,这个是有顺序的。

感谢大家!