石勇:大数据的问题、价值与应用实践

最近两年,讨论大数据的人非常之多,也可以说争论也很多。越来越多的人希望更加理性地去看待这个技术手段,如何让这个口号变成真正有价值的东西为广大人民服务才是重点。

在前两天的国际大数据大会上,来自中国科学院大学管理学院的副院长石勇教授谈了他的不同看法,并与大家分享了他们在大数据方面所做的一点工作。

 

 

石教授说,我们所说的大数据主要来源自三个方面,第一是政府,政府每天会产生非常多的数据,信息量也非常大,而且很多原始数据都应该对普通民众公开。第二是企业,现在企业间的数据不能共享,如果不共享,这个数据就没有生命力,很多工作都是重复劳动。最后是我们看到的公开的互联网上面的数据,其中主要是社会数据和个人交互产生的数据。有了这些大数据,一定要做数据挖掘,根据数据挖掘来做出的决策,会改变我们的管理结构,因为数据挖掘本身就是决策的过程。这个过程具体可以分为样本选取、数据变换、数据挖掘和数据展示等过程。

石教授同时也提到,我们传统理解的大数据的观点并不是完全准确的。比如说大数据研究应该既要全体,又要抽样,这种说法就有问题,大数据中说的全体,也不是真正的全体,而且也不可能用全体数据去做预测。另外说大数据应从相关关系中把握因果关系与必然关系,这种说法不科学,数据因素多了,关联多了,并不一定能找到因果关系,这是不必然的。

石教授认为大数据是数字化生存时代的新型战略资源,是驱动创新的重要因素,正在改变人类的生产和生活方式。通过最近几年团队的工作,他们在数据挖掘领域做出了不少基于大数据的相关应用。

比如针对银行信用卡、保险和房地产贷款市场,要想做精准营销,就需要通过非常多的客户的交易记录来把客户分类,分成第一彻底破产,第二部分破产,第三是呆账,第四是正常人,第五叫高端客户,所以你发现,这个数据表是开展业务的基础。通过类似的系统,可以让银行信用卡办理业务的时间由原来的一周减到2天,因为现在在美国办理信用卡就是2天。现在通过石教授的这个系统,五秒钟,只要把信息填进去,两秒半在整个大数据计算里面跟库里面的数据进行比较,跟你相近的找出来,很精准。

另外 ,在金融交易领域和一号店的客户评分系统,也都运用了石教授的系统,为他们的业务提供了更加可靠的决策和支持。

大数据作为一个新生事物,才刚刚发展起来,未来还有很远的路要走,石教授在演讲的最后希望产业界的朋友能够多多与学术界做交流互动,培养出更多更加专业的大数据人才。

(本文为作者根据现场的演讲人意思整理,如有曲解,请石教授见谅)