大数据的迷思:重点是如何快速挖掘数据

大数据的时代已经来临,这一点没有人会提出反对。当然,已经有很多的文章讨论过,大数据的重点就是数据挖掘,或是说,如何在海量的非结构性数据里找出有意义的资料出来。意义可以是,客户的某一些行为,供应商的某一些供货和价格趋势,库存的某一些趋势等。这些都是非常有价值的资讯。当通过数据挖掘,把有用的资讯放在一些图像报表,或分析报表,让高管可以根据报表所提供的资讯,做一些配合当时的商业决定,从而增加获取利润的机会。

在上面的描述里,不知道你有没有发现一个最关键的地方,就是,从挖掘到报表产生,可以让高管做决定的时间。 简单的说,大数据的意义就是,如何可以在最快的时间里,从海量的数据里,挖掘并产生有用的报表,让高管作出适时的决定。 如果整个过程需要的时间越长,报表的意义就越低。

举个例子,在澳门或美国拉斯维加斯的赌场,都有一些专门对付不受欢迎赌客的系统。赌场在每一个重要的角落,都安装有视像头,从一个赌客进入赌场开始,他的面容已经进到赌场的海量数据库里。一家赌场可能安装有几千个或以上的视像头,一天24 小时不断的把海量的数据,传送到数据库里。赌场当然不会只是很被动的等到有老千干了事情,再从海量的数据复查,因为赌场有可能已经被骗了很多金钱。赌场的系统会从每一个赌客进入赌场开始,把他的面容特征,和数据库做实时的比较。如果某人的面容,和数据库里不受欢迎赌客的面容一致,赌场就会立刻邀请他离开赌场。整个过程的关键,就是时间。越长的时间,代表赌场有机会被骗的金钱越多。

大数据的核心设备,当然是存储系统。所有的数据,都是从存储系统送到应用服务器分析计算,再产生报表。在整个过程里,数据会在存储系统和应用服务器间来回很多遍。时间的关键,就在于存储系统的IOPS(Input/Output Operations Per Second,每秒进行读写操作的次数)。存储系统的IOPS越高,整个数据挖掘的时间就越短,就是这么简单。

但是,往往很多用户都没有在这一点上有太多的了解,或是,包括存储系统供应商的人,可能也没有太多的了解。结果是,实施后的数据挖掘方案,所需要产生报表的时间太长,根本没法满足原来想要的目标,并导致整个数据挖掘系统项目的失败,投进去的钱变成白投。

所以,在你为一个大数据项目立项时候,一定要有很明确的目标,而目标不单是你需要的报表内容,更需要是获取报表所需要的时间。目标明确后,一定要确保存储系统的IOPS足够支撑你定的目标。如果系统供应商的方案顾问在这一点上没有很明确的意见,我建议你可以找别家来谈,因为他们根本没有抓到数据挖掘的核心重点。