IBM在美国公开赛上的大数据故事

我住在纽约而且我也是在这里长大的,所以对我来说,每年的这个时候都有十分特殊的意义。虽然我不是一个非常热衷的体育爱好者,但是我喜欢看(网球)公开赛,这个比赛在纽约皇后区的法拉盛草地公园举行。自我上高中以来的每年夏天结束时,我就会参加公开赛或者在电视上观看。早在20世纪80年代,我爸爸的公司在路易斯•阿姆斯特朗球场(在当时是中央球场)就有一个球场边箱,每年我们家都会到那里买门票并在第四轮和四分之一决赛时看几场比赛。因此,我每次都能坐在比赛场地的第三排,观看我喜欢的约翰•麦肯罗、吉米•康纳斯、伊万•伦德尔、比约•博格和其他人争夺网球霸主地位,这是令人非常兴奋的一件事。

我一直追随着许多在比赛中占支配地位的角色人物。因此,有段时间我将注意力集中在IBM上。这些年来IBM在公开赛中建立的技术变得越来越复杂。而且,随着这项技术对于个人爱好者来说,已经变得越来越容易得到,我就想知道更多关于它的构建方式。所以当我这星期访问IBM的赞助营销技术经理约翰•肯特时,我有点像个在糖果店里的小孩那样,他告诉了我关于IBM的美国公开赛上的技术特性和基础设施的真相。在这里我将会全面传达我从简报中收集到的信息。

iPad上的美国公开赛

IBM一直在与美国网球公开赛的幕后组织—美国网球联盟合作,到现在为止这个合作已经持续了22年。整个时间段里,该公司一直在提供传送得分和统计数据的基础设施,但在过去的几年里,事情变得有趣了。

例如,今年美国公开赛第一次有了自己的iPad应用程序(iPhone应用程序在2009年实现),打破了得分信息、直播与点播视频及分析的情况。甚至从一个复杂的社会媒体的角度来看:当iPad应用程序被打开的时候,你将会看到一个列的集合,每列显示一连串的消息,这些消息是散列的标签,具体到公开赛举行的国家网球中心的个人球场(和比赛)。

IBM在美国公开赛上的大数据故事

仅仅轻拍几下,你就可以导航视频流的菜单,也可以是球场,也可以转播现场比赛,当然是高清的。你也可以很容易地看到最新的画表,关于所有的5个主要赛事(男、女单打和双打,以及混合双打)。本周在火岛租赁的海滨别墅里,我主要使用了这个应用程序,在那里数字用户线(顺流速度低于3Mbps)是唯一的宽带选项,并且阅读器也运行得良好。

回到网络中

然而你并不一定需要一台iPad来利用这项技术。例如,在你的台式或笔记本电脑上登录www.usopen.org,你就可以利用很多相同的专题节目,甚至是一些你在iPad上不会获得的。例如,从顶部导航条中选择视频和广播,然后从下拉菜单中点击美国公开赛直播,选择一个球场,并开始观看。在我写这篇文章的时候,我正在看安吉丽•科伯和维纳斯•威廉姆斯正在进行他们的第二回合的比赛。既然我在上网,我就不只是想看线性视频和倾听各种评论;在视频直播中,我也想做一些叠加的数据分析。正如你所想的那样,IBM并没有让我失望。

首先,我可以点击比赛数据按钮,看看实时更新的统计数据,如第一发球的百分比、发球双误和自然失误的数量,并且我可以看到这些计算的数字关于整个匹配或特定的设置。 在屏幕的左上角,有一个按钮标记着“进入比赛的按键。”如果我点击它,一些非常有趣的数据就会出现。在去年的公开赛中首次上演的专题节目,在确定给定匹配成功时,可以确定三个最重要的因素,这是为每个特定的对手专门定制的。在该网站的SlamTracker专题节目上,你可以看到同样的数据(而不是作为在视频直播上的一个叠加),可用于分数和统计:

IBM在美国公开赛上的大数据故事

这些措施还包括目标和状态的数量。实际上,它们是关键性能指标(KPIs),回到竞技体育上,比赛显示的关键是一个计分卡,使得这个术语能够完整循环的使用。但不是直接在线分析处理(OLAP),这些关键性能指标是源于在过去7年的所有四大满贯赛事中、总计3900万数据点的数据的执行预测分析。

通过对受人喜爱的科伯在大部分比赛中的分析,得出她是最终的获胜者。尽管科伯比维纳斯有更高的排名,但是比赛的结果的确是有某种程度的不安,这也是IBM准确的预测分析。

这是真正有价值的数据,而且IBM与娱乐体育节目电视网(ESPN)合作并将数据提供给后者实况转播的评论家来保持对话的进行。但是很清楚的事情是,在这个网络时代和交互式分析中,你不再需要依赖评论员来得到它。相反,你只需要一个浏览器和一只鼠标,或者一个iPad和你的手指,来成为你自己的大满贯数据分析员。

藏在幕后的是什么?

大约两个星期以前,我写了一篇文章“IBM的大数据能力”,包括其产品组合和收购。所以很自然地,我很想知道IBM产品的后端是什么以及其技术在美国公开赛中的使用。以下是我所知道的:

• SlamTracker技术(包括比赛数据和比赛的关键)大量使用IBM在2009年收购的SPSS技术。

• IBM有着强大的关系数据库,数据库对得分数据和操作使用得非常频繁。

• WebSphere MQ(fka MQ系列),IBM基于消息的基础性中间件是用来进行得分交付的,让你能够更快速的获得在线分数。

• WebSphere的技术用于整体服务体系结构。

最令我感兴趣的是关于上面列表中的所有技术使用如何能超过10年(它们中的一些也更多)。核心统计、关系、SOA和中间件技术还没有在数据和分析的这个阶段变得不重要。另外,特别值得注意的是,Hadoop、Netezza和Cognos业务智能技术还没有做出削减。Hadoop、数据仓库和商业智能(BI)当然是重要的;但是IBM应用程序的传统企业技术表明,大数据和BI特定技术对于好的分析实现来说,并不一定是先决条件