尽管Data Science Summit 2012(2012年数据科学峰会)是单独的为期一天的大会,不过它是和EMC World 2012(2012年EMC大会)举办在一起。该峰会的目的不是纠缠于技术细节,而是讨论数据的扩展角色(比如大数据),数据需要用的分析手段,从经济、政治和社会角度来看的数据角色。简而言之,该峰会广泛设想了数据的未来及其意义。
去年,这个名为“数据科学家峰会”的大会主要关注于数据科学家“明星”发言人及其合作成员。今年的主题则放在了数据科学团队上。EMC的商业部门Greenplum和EMC本身资助了这两届的大会。
不过,第一个问题是:“什么是数据科学?”根据维基百科的说法,“数据科学为了解决复杂的数据问题定义了一个规范,该规范包含了如何应用各种层次的统计、数据虚拟化、计算编程、数据挖掘、机器学习和数据库工程。”这篇简短的文章继续说《数据科学期刊》是2002年4月创刊的,因此数据科学至少有10年的历史。
第二个问题是:“为什么数据科学是重要的?”本杰明富兰克林在回答质疑第一个热气球的价值的问题的时候反问道:“新生儿的价值是什么?”实际上,数据科学要摆脱新生儿阶段还有很长的路要走,它还要很长时间才能完全成熟。目前为止,数据科学带来了一系列技术,这些技术有的用于搜索引擎,比如谷歌的搜索引擎,有的可以利用页面本身外面的数据和友情关系(Facebook),有的可以分析大数据并产生建议系统。数据科学及其科学家的强项在于创造性地思考哪些信息可能是有用的以及如何挖掘它的价值。
整体上,2012年数据科学峰会是有趣和有用的,应该在未来继续举办。不过,这个领域还有许多工作要做才能构建一个上层架构来关注和鼓励人们对数据科学及其潜在影响的清晰思考。
计算和信息之间的“马和马车”关系长期以来就用一个旧术语“数据处理”来描述。这两个都是需要的,但是如何IT的中心变得更倾向数据的话,那么数据科学作为计算机科学的下一阶段将变得更加具有吸引力和更加重要。
不过,数据科学行业也需要更多的曝光率。2012年数据科学峰会讨论了影响数据科学的广泛议题,但是它的信息需要传达给更广大的听众。为什么?因为这样他们就可以理解数据科学并成为对话的一部分,在各个方面影响他们的生活。
虽然数据科学社群不仅需要思考个人、团队和项目,它还需要思考如何才能成为一个有作用的行业。该峰会是一个有价值的开始,不过在下一个峰会前还有许多工作要做。随着项目和案例研究不断带来发现和结论,数据科学运动将得到更深的方向和实例。