玩转大数据 百度要做“章鱼帝”

今年世界杯,巴西队首场对阵克罗地亚的胜率是72%,平局的概率则有20%!

厄瓜多尔有52%的几率望成为黑马,洪都拉斯异军突起的可能性只有7.8%,当然,这个黑马榜15个“种子选手”中,根本没有中国。

这是谁说的?

当然,不会再是那个有预知功能的章鱼保罗了,那个神奇的“大人物”已经在四年前预测完世界杯冠军后撒手“鱼”寰……这是百度大数据计算的结果,公布在百度“trend”中。

世界杯就像一场狂欢盛宴,任何可以被抓住成为焦点的可能都被尽量放大。

继章鱼保罗一举成名后,今年有更多精灵动物浮出“球”面:德国再次推出动物明星大象;英国派出一只名犬参赛;中国当然是把国宝熊猫拿出来趁机吸引眼球——成都动物园让熊猫宝宝通过选择食物的方式来“预测世界杯”;听说日本也想博出境,想来想去找了一只名为“英太郎”的猴子参与竞猜——并且已经预测出日本将进入四强。

不过,人们是否还会对动物预言帝感兴趣?有谁会相信猴子、大象、熊猫也会是预言帝?无论怎么看,这都更像是一场半真半假的“国宝秀”。

而本次世界杯的预测帝新趋势是技术派——走大数据路线的百度、霍金和高盛。

人人都要做“章鱼帝”

还记得2010年时章鱼保罗一共做了14次预测:其中预测正确的居然高达13场,正确率接近93%。当然,有人说当年章鱼帝保罗哥预测的这14场比赛最终都分出了胜负,没有一场平局,也是保罗预测精确度之高的原因之一。

但如果说2010年的章鱼保罗是世界杯真正的主角——整个世界杯似乎就是为了证明这只年仅两岁的章鱼预言真伪而存在,那么2014年的巴西世界杯的动物“预测”则完全成了一场笑话的前奏。

而就在这个越来越乌龙的动物争宠战进行过程中,百度则试图用大数据来证明预测世界杯的成败乃是一个靠谱且科学的过程,当然,这或许也是告诉世人——尤其是那些对大数据存疑的人,大数据是否真实可靠的一个最佳秀场。

百度商业运营体系副总裁向海龙透露,预测世界杯冠军和本届比赛的黑马在百度内部都被看成是一个非常有趣的项目。当然百度也预测每场比赛谁赢谁输。

“我们不是瞎预测,这个大数据的背后,百度综合了1000支球队、最近五年、37000场的比赛,还有29610名球员的数据,此外,还结合了252万条网民的搜索请求,以及全球1.1亿基础数据整合到一起。”向海龙强调,“产品创新对于基础设施提出了更高的要求。”

向海龙表示,这样的计算能力并不是一个公司短期内能够达到的。目前,百度已经收录了全世界超过一万亿张网页的100PB数据,相当于5000个国家图书馆的信息量总和,几乎记录了整个中国互联网的发展史。同时,百度上每天有百亿次的访问请求,离线完成1000亿网页的处理与分析。而时效性网页从更新到索引只需要几十秒,真正做到了在大数据量级下的低延迟、秒级响应——只有这些硬性条件都成熟,才敢称百度的大数据有这样的能力。

而本次世界杯预测模型,是由百度深度学习研究院派遣资深数据科学家协助大数据部研发团队共同构建,世界杯预测模型的准确度在主队胜与不胜的判定上达到75%-80%。

从世界杯到一切?

而除了动物外,本届世界杯也不止百度一家是“技术派”,霍金和高盛也一起难以遏制对世界杯足球的赌性,他们甚至都推出了计算公式。

例如霍金的公式中,甚至包括英格兰队获胜和天气之间的关系——气温仅提升5℃,夺冠几率就可能会下降59%……脆弱的英格兰队的胜负跟球衣颜色、阵型、是否长途飞行、是否欧洲裁判都有莫大(博客,微博)关系。

在高盛的报告中,英格兰队的命运被判定为“比较悲催”。例如小组赛阶段英格兰队出线的概率只有54.3%,而同组的意大利和乌拉圭分别是69%和57.5%……

而百度的预测中所分析的球队,不仅包括207支国家队,还包括欧洲、南美洲、亚洲等主要联赛俱乐部球队以及部分低级别俱乐部球队的信息。据百度内部透露,之所以将俱乐部赛事数据考虑进去,是为了发现更多和比赛结果相关性较高的内在和外在因素,以丰富和优化预测模型。

但是百度也在做减法,他们只选择了过去5年的数据来进行分析,是因为考虑到过去5年的数据更能够反映本届世界杯各个球队的真实情况,使用太多的历史数据将会在一定程度上增加数据的噪音,反而增加了数据分析的难度,也降低预测的准确度。

事实上,李彦宏也在百度联盟峰会上讲过,大数据时代,“数据太多”是一种误导,因为现在每天产生的很多数据是“无价值的”。

不过,如果说霍金和高盛是纯“学术”派研究来玩玩的话,那么百度做的世界杯预测,则已经显露出大数据与彩票业、保险(放心保)业结合的巨大商业空间——现在在百度预测的页面上,用户可以直接下注购买世界杯赛事的彩票,服务提供方之一是平安彩票。

在百度的页面上,不仅有“足彩投注”按钮,可以按一注12元、两注24和五注60元三种方式买,甚至有“不中赔偿”,用户只要购买了和百度预测结果一致的彩票,一旦真实结果和预测不符,平安保险将对彩民进行部分赔付。

以巴西对阵克罗地亚的比赛为例,百度预测巴西队取胜的概率超过七成,平安保险为这场比赛投入5万元作为赔付金,如果克罗地亚爆冷战胜巴西队,那么通过平安彩票买巴西胜的所有用户可以均分5万元;如果巴西战胜克罗地亚,这5万元将累积到下一场“不中赔偿”的比赛。

这显然是百度前向收费业务推进的结果,这家公司在试图努力开发对个人的前向收费业务,而世界杯就是一个最好的切入口:从获取信息,到下注购买,到百度钱包支付,形成一个闭环。

在未来,百度还将在赛事彩票、保险、甚至球员潜力挖掘方面逐步深入。例如在赛事彩票领域,百度大数据将利用大数据技术为彩民提供更加科学、可靠的投注参考数据;在保险领域,将联合平安保险创新险种,在彩民购买彩票的同时给予彩票保险来保证最后的收益以及减少投注不中的损失,而彩票保险的背后所涉及的定价过程将依赖赛事预测模型来进行操作。

百度显然是在尝试,是否能把体育比赛的商业机会挖掘得更加淋漓尽致,而在这里面,无论是彩民还是玩家,都能更有效地通过大数据分析来利用“必然中的偶然”和“偶然中的必然”。例如用大数据帮助百事可乐选定代言人吴莫愁,与万科集团合作打造智能商业地产,都是在试图让大数据与传统产业相结合。

而在这次世界杯之后,百度还计划推出疾病预测、房地产预测、票房预测、就业预测和金融预测……看来,百度是要做一切公众事件的“章鱼帝”。