群英会:大数据的现状与未来

上周末,2014中国大数据技术大会 (Big Data Technology Conference 2014,BDTC 2014)在北京新云南皇冠假日酒店召开,会上中科院计算所研究员,CCF大数据专家委员会秘书长程学旗发布了《中国大数据技术与产业发展白皮书(2014年)》,来自学术和企业界的专家学者就大数据的发展问题接受了DOIT传媒记者的采访。

人工智能和深度学习不能与大数据划等号

由于诸多专家对2015年的市场预测中结合智能计算的大数据分析成为热点,包括大数据与神经计算、深度学习、语义计算以及人工智能其他相关技术结合,成为大数据分析领域的热点。所以大家都觉得大数据的下一步发展就应该是人工智能了。对这个问题,卡内基梅隆大学教授ICML 2014程序委员会主席 邢波先生解释说,大数据是一个目标,是一个研究对象,人工智能是另一个目标,我们要达到人工智能来理解这个数据,方法论是机器学习或者是智能计算。深度学习是机器学习里面十个手指头里面的一个指头。他们没有等号的关系,甚至没有互相包容的关系。CCF大数据专家委员会秘书长程学旗认为:大数据目前还是一个现象,我们在研究大数据计算里面怎么样体现它的智能,或者解决智能方面的问题,这就可能是我们未来一段时间内学术界和工业界关心的问题,包括它的机器智能,人工智能,各种智能。

中国工程院院士、中国科学院计算技术研究所研究员 李国杰补充说:“那么多专家把大数据和人工智能划等号,这还不仅是大数据这一件事儿,整个所谓智能化的技术,是经过一段时间很重要的方向。过去几十年是数字化,接下来是自动化,然后是网络化,智能化也做,但是相对来说不是那么看重,但是越到后来现在发现智能化的要求越来越高,希望它对产业方面贡献越来越大。所以智能化一定是很重要的一个主题词,但是智能化没有止境,打个比方,好象人的影子似的,太阳在那边照着,老想踩着影子,永远是个边界。”

信息公开需分步骤进行

做大数据的人都知道,数据是一切工作的基础,因此数据公开是大数据发展的一个关键因素,或者说是生态环境。而中国在这方面比别人落后了许多,关于这个问题,专家们也都发表了自己的看法。

卡内基梅隆计算机科学教授、Conviva联合创始人兼CEO张晖先生认为,如果要做好数据公开,第一件事儿就是一定要先把规则定清楚,数据所有权是在哪里。这些在中国网站还在探讨之中,但是第一件事儿是归属问题在哪里。第二个就是这个事情怎么能够做出双赢多赢的情况,这个需要在整个业界,包括政府,包括企业,他以自己的利益为主,然后以他的所有权为基础做双赢的局面。比如说数据为了研究公布的数据,一般情况下需要做匿名化的处理。为什么公司需要把发布的数据通告出来?这个是企业自身对产业方面有所提升,这个概念是一样的。所以是生成良好的生态系统是重要的组成部分。

同样拥有企业和大学教授双重身份的高光荣先生是ETI创始人,同时也是美国特拉华大学电子与计算机工程系教授,他也分享了美国d经验。教授所发明的东西,会有自主的知识产权。当他把这个想法变成公司的时候,就成为了社会价值。

李国杰院士认为这个问题要分步骤来进行:现在国内做法是这样,我们开放目录表格,选择哪些开放哪些没有开放,这个没有讲出道理说哪些原则上开放,原则不应该开放,这个道理有差别。最简单的办法,全世界,你要向美国学习也不难,大家接受起来不难,他是最先进的国家。但是你像印度,像巴西这些国家跟我们差不多。人家巴西搞的共享,他们发展到什么程度,我们可以学,你就参照人家跟我们差不多层面的国家做一些事儿,这样跟我们国家的政府理解,这个是可以推动的工作。

大数据的落地挑战与人才培养

来自中国人民大学信息学院院长杜小勇教授分享了人才培养问题。他说我们人民大学联合了北京市的五所高校,包括北京大学,中科院大学,财经贸大学,对外经贸大学,他们一块儿里开这个课,设了七门课程,我也参与了他们的课程,其中一个是应用课程设计,他就加强了一些计算机平台,他对计算机的课程有一个计算一门的课程,做统计挖掘,这样让更多的学生对大数据使用平台。再比如说北京大学,我参加了技术认证,他本身认为是交叉科学,比如说他在医学科,同时可能会有一个计算机学科的教授一块儿来做这个学科。更多的在研究生这个层面上比较保险,但是有一些少部分学校,在本科学这个专业,我个人还是持保守的态度。这个是国内的情况。

邢波教授觉得如果看国内,或者包括公司里面做大数据,我看到的现象大部分都是作为数据的享用者,我来把这个数据做一个挖掘,然后产生一些功能产生一些信息出来。你如果看他们在方法论和工具上面开发做的比较少,为什么比较少?是因为这个技术难点,因为他培养这种人才难点需要人才支持,需要数据上的支持,需要算法和数据上的支持。所以对于培养人在本科阶段不是不好,而是难度太大,而且积累不够,可能知识面比较丰富。

李国杰院士认为大数据本身就是一个交叉融合领域,这里面涉及的科目非常多,所以大数据是融合的过程,从多角度的融合。现在讲数据共享公开也好,它不是说我有东西不公开,在我手里。实际上大家都是融合一块儿出现,你拿自己的东西出来没用的。但是大家没有产生融合的概念,只要大家想到融合出来,那才是大家都能做到的,这个不管是人才培养还是大数据,这都是它本身的特点。