独家解读:“大数据,国家实验室”,最该输出些啥?

由中科院计算技术研究所承建的“大数据分析系统国家工程实验室”在京揭牌是今天的新闻热点,该实验室由中科院计算技术研究所牵头,联合中国科学院大学、中科院计算机网络信息中心、曙光信息产业股份有限公司、国创科视科技股份有限公司共同建设。

big

在本次揭牌仪式上,有专家表示:中国虽然拥有全球14%的数据量,利用率却不到0.4%,大量数据未能发挥其应有作用。

既然如此,大数据分析系统国家工程实验室的成立能够解决或者缓解存在问题吗?你说什么,要一个国家实验室来解决问题,未免有些差强人意吧?!的确如此。但是,国家工程实验室的成立也应该有针对性的,目的是从国家顶层设计的高度解决问题,目标也是为推动大数据应用,因此从这个思路出发,投资“大数据分析系统国家工程实验室”发挥作用也非常重要。

“大数据分析系统国家工程实验室”会发挥作用呢?这就需要对于中国大数据应用存在的问题把把脉:是技术问题,数据问题。此前有专家认为是数据定价问题(参见:太扯了:承认数据是资产有个卵用?数据共享靠的不是这个!),也有认为是隐私保护等政策法规的问题。

从国家实验室的方向看,中国工程院院士、曙光公司董事长、大数据分析系统国家工程实验室李国杰表示:实验室建设总体规划是面向大数据分析全生命周期的技术与应用环路,系统化地构建大数据分析三大平台:

1、大数据分析基础设施平台;

2、软硬一体的大数据开放分析平台;

3、大数据分析示范应用与服务平台;

通过三大平台的建设,切实开展大数据分析领域的科学研究与技术研发。

这样的表述,是不是可以得出这样的结论:目前的问题是基础设施和分析平台,似乎更加侧重数据和分析技术。有意思的是:全球大数据顶级技术峰会Strata + Hadoop World主办方O’Reilly日前宣布,会议改名为 Strata Data Conference,也将重点集中在技术平台。换句话说, 他们也认为Hadoop 时代终结,聚光灯应该从大数据转移到机器学习(以及诸如深度学习等更先进的技术领域)。当然。大数据应用的基础还是分布式和可扩展处理。

有专家表示Apache Spark抢了Hadoop的风头。其实,无论Hadoop、Map/Reduce、Spark、机器学习等,还都是技术问题。真是这些技术问题延缓了中国大数据应用的脚步吗?

在我看来,所谓“技术问题都不是问题”。如果技术存在根本问题,国内外就应该被技术问题羁绊。尽管在掌握技术的成熟度上,国内存在差距。但也没有必要先成为技术高手,再来讨论应用的问题。这个结论是不成立的。

如果技术不是问题,更多的可能性还来自投资和商业模式上。

大数据往往涉及的是战略决策的问题。其依据来自对于数据关系深入研究,从中洞察数据背后潜藏商业价值。其中,数据量、数学模型等都会对结果产生影响。大数据应用的过程,也是一个反复研究和推理的过程,需要数据科学家丰富的经验。

简单来说,数据积累、数据分析工具和分析方法将非常重要。对于但一行业或者企业来说,尽管拥有数据,但数据积累还是会有局限的。数据建模和商业应用是更加难以逾越的障碍。

如何解决数据丰富性的问题。对此,曙光公司的加入会让问题有所缓解。曙光在全国各省市提供了大量的云计算服务,产生大量数据。从技术上,这些数据可以支持“黑盒”使用,所谓“人人为我,我为人人”。作为大数据应用的国家队,“大数据分析系统国家工程实验室”完全可以承担:数据输出的角色。一句话,数据就在哪里,就看你怎么分析和挖掘了。数据是不能直接输出的,但大数据分析的结论是可以输出的,如此,也就规避了数据隐私和数据定价的问题。

“大数据分析系统国家工程实验室”有数据,有平台,有技术,从这个意义上说,就应该输出商业化的大数据服务。完全可以承担大数据应用服务商的角色。对此,国家工程实验室有一个很好的学习样板:上海超算。

对于国家工程实验室,我们最期待的不是技术、不是示范,更加期待的是服务。这也是它最应该输出的内容。就像2年前,Splunk专家所说的,用户需要不是Hadoop、Map/Reduce,数据就在那里,如何分析,分析视角,这是熟悉业务的用户最为擅长的。至于机器学习,通过机器算法分析的东西,其中秘密也只有业务专家才能够进行判读和解读。