美网与大数据

IBM一直在与美国网球公开赛的幕后组织—美国网球联盟合作,到现在为止这个合作已经持续了22年。整个时间段里,该公司一直在提供传送得分和统计数据的基础设施,但在过去的几年里,事情变得有趣了。

例如,2012年美国公开赛第一次有了自己的iPad应用程序(iPhone应用程序在2009年实现),打破了得分信息、直播与点播视频及分析的情况。甚至从一个复杂的社会媒体的角度来看:当iPad应用程序被打开的时候,你将会看到一个列的集合,每列显示一连串的消息,这些消息是散列的标签,具体到公开赛举行的国家网球中心的个人球场(和比赛)。

仅仅轻拍几下,你就可以导航视频流的菜单,也可以是球场,也可以转播现场比赛,当然是高清的。你也可以很容易地看到最新的画表,关于所有的5个主要赛事(男、女单打和双打,以及混合双打)。本周在火岛租赁的海滨别墅里,我主要使用了这个应用程序,在那里数字用户线(顺流速度低于3Mbps)是唯一的宽带选项,并且阅读器也运行得良好。

回到网络中

然而你并不一定需要一台iPad来利用这项技术。例如,在你的台式或笔记本电脑上登录www.usopen.org,你就可以利用很多相同的专题节目,甚至是一些你在iPad上不会获得的。例如,从顶部导航条中选择视频和广播,然后从下拉菜单中点击美国公开赛直播,选择一个球场,并开始观看。在我写这篇文章的时候,我正在看安吉丽?科伯和维纳斯?威廉姆斯正在进行他们的第二回合的比赛。既然我在上网,我就不只是想看线性视频和倾听各种评论;在视频直播中,我也想做一些叠加的数据分析。正如你所想的那样,IBM并没有让我失望。

首先,我可以点击比赛数据按钮,看看实时更新的统计数据,如第一发球的百分比、发球双误和自然失误的数量,并且我可以看到这些计算的数字关于整个匹配或特定的设置。 在屏幕的左上角,有一个按钮标记着“进入比赛的按键。”如果我点击它,一些非常有趣的数据就会出现。在去年的公开赛中首次上演的专题节目,在确定给定匹配成功时,可以确定三个最重要的因素,这是为每个特定的对手专门定制的。在该网站的SlamTracker专题节目上,你可以看到同样的数据(而不是作为在视频直播上的一个叠加),可用于分数和统计:

这些措施还包括目标和状态的数量。实际上,它们是关键性能指标(KPIs),回到竞技体育上,比赛显示的关键是一个计分卡,使得这个术语能够完整循环的使用。但不是直接在线分析处理(OLAP),这些关键性能指标是源于在过去7年的所有四大满贯赛事中、总计3900万数据点的数据的执行预测分析。

通过对受人喜爱的科伯在大部分比赛中的分析,得出她是最终的获胜者。尽管科伯比维纳斯有更高的排名,但是比赛的结果的确是有某种程度的不安,这也是IBM准确的预测分析。

这是真正有价值的数据,而且IBM与娱乐体育节目电视网(ESPN)合作并将数据提供给后者实况转播的评论家来保持对话的进行。但是很清楚的事情是,在这个网络时代和交互式分析中,你不再需要依赖评论员来得到它。相反,你只需要一个浏览器和一只鼠标,或者一个iPad和你的手指,来成为你自己的大满贯数据分析员。

藏在幕后的是什么?

很自然地,读者会很想知道IBM产品的后端是什么以及其技术在美国公开赛中的使用。以下是我所知道的:

SlamTracker技术(包括比赛数据和比赛的关键)大量使用IBM在2009年收购的SPSS技术。

IBM有着强大的关系数据库,数据库对得分数据和操作使用得非常频繁。

WebSphere MQ(fka MQ系列),IBM基于消息的基础性中间件是用来进行得分交付的,让你能够更快速的获得在线分数。

WebSphere的技术用于整体服务体系结构。

最令我感兴趣的是关于上面列表中的所有技术使用如何能超过10年(它们中的一些也更多)。核心统计、关系、SOA和中间件技术还没有在数据和分析的这个阶段变得不重要。另外,特别值得注意的是,Hadoop、Netezza和Cognos业务智能技术还没有做出削减。Hadoop、数据仓库和商业智能(BI)当然是重要的;但是IBM应用程序的传统企业技术表明,大数据和BI特定技术对于好的分析实现来说,并不一定是先决条件。