力战车拖来拖去的尸体。
连对技术一窍不通的资本人,已经注意到Facebook大数据结构中“海量数据+复杂数据类型”,非结构化数据等典型问题。事实上,这还没有涉及Hadoop、NoSQL、数据分析与挖掘、数据仓库、商业智能以及开源云计算架构等诸多基础性问题。
大数据大致的技术过程,是先以SNS、搜索引擎、POS机等采集器,将海量数据采集进数据仓库中,然后用分布式的技术框架(Hadoop),对非关系型数据进行异质性处理(NoSQL),通过数据分析与挖掘,发展一对一的商业智能。由于大数据问题比较复杂,我现在有些个人想法,但考虑成熟之前,先不拿出来误导大家。我们还是先顺着Facebook的实践和见识,自下而上归纳。
Facebook在大数据这一行,也是显赫的主角之一。它在低成本整合海量数据方面,为大数据行内人士所称道。但目前Facebook的大数据战略在我看来,还没有完全定型,它主要集中发展的是内部数据管理这一块。
2011年12月Facebook发布的Timeline,被认为是一款大数据产品。Timeline是用户自我编辑的个人时间轴,通俗地讲,它实际就是个人的斯芬克斯之谜解答器。问一个人,你是谁,这是非常难以准确回答的。但如果一个从小到大跟你一长大的人,再遇到这样一个问题,脑子的反应的,正是这样一个Timeline。它比人事档案还档案。与人事档案的一个重要区别在于,它可以控制个人信息只给想展示的人。在数据挖掘帮助下,从理论上说,一个人可以在挑选皮鞋时,只展示一生中与皮鞋相关的历史,供第三方的生活方式设计师,替你一对一选鞋提供咨询建议用。
有了Timeline,就象扎克伯格说的,“自此,你的生活,全部都在网上了”。这里的生活,只是生活中与意义相关的部分,是数字化生存。即魂这一部分的生存。魂在生活整体中,是管钱包如何花钱的系统,是管四肢如何行动的系统,管住了一个人的魂,就把这个人的指挥权接管了。所以Timeline也可称为人类勾魂系统。只是,Timeline太单薄了,将来下一代小男生小女生们会有更好的办法做这件事。
有了勾魂系统(即个人意义系统),把大量数据采集来,下一步难题是破解灵魂。正如分析家们判断的那样:“Facebook之前数年的努力让接近10亿数字移民建立了联系和纽带,这个世界的边界仍要扩张,而下一步更重要的则是考虑如何让关系产生的海量数据更有价值”。之前数年,在大数据这一行,Facebook干的相当于是采矿的,所以被误当作SNS;他自己实际上不以为然,下一步要转行做原料加工的(当然他霸住的SNS矿山,别人不挤他,也没必然退出来)。
破解灵魂,在理论上叫意义阐释,必须突破以下几关,第一关是从结构化数据到非结构化数据这一关,结构化数据相当于把人简化为相关维度后的一堆数字,相当于把人挑掉有血有肉部分后剩下的骨头,菜市场里挂的猪骨架就相当于这种东西;非结构化数据,相当于自然语言,还包括广义文本、应用、位置信息、图片、音乐、视频等等,它们相当于有血有肉的数据。处理结构化数据相当于处理不带肉的大腔肉,处理非结构化数据相当于处理有血有肉的排骨。当然价值要高得多。
目前大数据的攻关主力都在这个方向上。具体到Facebook,它的非结构化数据,主要集中用于可用性测试、眼动测试等,另外还有战略因素,用户需求,竞争产品,商业利益因素等分析重点。
第二关更难,是要从结构化数据,深入到数据背后的潜在意义,即灵魂中去。历史上弗洛依德干过这事,通过解析梦话,来解不可言说之梦。但是要在全社会规模上,对每一个人在时间上的每一历史记录,空间上的每200米卫星定位记录,支付中的每一笔水单收入,存储中的每一条文字,进行分析,以解开当事人本人都说不清楚的斯芬克斯之谜,以把他与其他人从个性上加以区分,进而对他进行北约空军式精确制导的一对一商业攻势,现在还有许多难题。
Facebook目前在这方面的探索,正处在活跃期。我们可以看出,它正沿着Face-Soul-book的顺序演进。第一步,SNS相当于大数据的Face部分,在意义阐释学中,叫语形。即用SNS这个数据采矿机,偷听用户聊天,然后整理成结构化和非结构化数据。Facebook这方面的突出成就,是通过Hadoop的开放架构,有效降低了采矿和分检成本。
第二步,要由表及里,从数据中分析出意义,其产业定位是服务加工,即AaaS(分析即服务,analytics-as-a-service)。也就是“灵魂深处闹革命”。
第三步,是形成book。中国古代传说中,人类在阴间有个册,阳间有个册。管的就是人的小命。Facebook把每个人的灵魂秘密掌握后,记录成book,“Facebook”这一步就完成了,扎克伯格就成为掌管人间命数的神。在京剧《铡判官》中,负责BigData的官员叫张洪,由于擅自改写生死簿,被包公铡了。可见这个职位对人类是何等重要。
Facebook现在每天会采集到4TB的用户行为数据,他主要是通过瀑布式分析、追踪交互步骤的转化/流失率,大量的A/Btesting,观测用户行为使用模式,优化界面交互和操作流。除了瀑布式的分析,Facebook数据还被用于回溯性式分析,优化页面。
比如,Facebook有一位设计师为了在用户即将注销Facebook的最后一刻,将其挽回,根据对用户数据的分析,找到他们内心想法的规律,从而发起了注销页的改造,用情感化的方式打动人,成功将注销率降低了7%。从而在关键时期止住了Facebook的失血,使Facebook度过了危险期。
Facebook的大数据,开了个好头,还在不断探索中,创新势头不错,还会不断给我们带来新的启发。但总的来看,对大数据这场长征来说,Facebook只是迈出第一步。
大数据本身的发展还需进一步定型。Facebook的大数据也还存在结构性问题,我觉得在纵深度上仍有不足。从现象上看,表现出的问题主要是Facebook收益来源单一,与这种结构缺陷有关。目前Facebook还局限在自己做大数据,如果能把产业链拉开,把外部开发者象苹果那样进一步调动起来,前途会更为远大。