程学旗:大数据的挑战问题和发展趋势

由中国计算机学会主办、CCF大数据专家委员会承办HBTC2012Hadoop与大数据技术大会于11月30日在北京举行。本届大会以大数据共享与开放技术为主题,设置了Hadoop生态系统、大数据行业应用、大数据共享平台与应用以及大数据的技术挑战和发展趋势等五个分论坛。大会将就大数据技术生态系统的现状和发展趋势进行探讨,并围绕Hadoop与大数据热点技术和应用实践进行深入解析。

程学旗代表中国计算机学会专家委员会来发布大数据的热点及未来的发展趋势做一些调研跟大家分享。

程学旗提到大数据的时代已经到来了,五年前我们组织Hadoop IN CHINA这个会已经和今天的大数据的主题比较切合,今年大数据的概念比较大,所以这次大会的题目改成了Hadoop与大数据技术大会大会。

当然,大数据不仅仅与Hadoop相关,传统的关系数据库和结构化存储相关的技术,在大数据时代的时候是不是有什么新的问题,有什么新的挑战,业界、学术界以及政府部门对相关的大数据是怎么看的。估计今年至少从10月份以来,国内关于大数据的会议已经开了7、8次了,往后还会陆陆续续要开。这种情况下,中国计算机学会组织大数据专家委员会,不是为了赶热闹,而是组织专家委员会以及把Hadoop归到大数据专家委员会来统一组织实际上是有它内在的理由和原因的。

大数据执行委从今年10月在中国计算机大会上成立以来有70名委员,其中学术界有46位,产业界14位,还有海外学术界委员10位。我们在大连开会的时候探讨过,既然大数据这么热,而且在CNCC大会上有1600、1700人差不多每个人都说自己是做的大数据,无论是做物联网的还是做高清计算的,所有人都说我做的是大数据。当时我们在想,既然整个计算机界人做的都是大数据,那什么是大数据。

大数据执行委就大数据的科学问题是什么、边界是什么,以及为什么大数据成为热点的词以及大大数据技术上的挑战到底是什么做了很多调研并进行了如下总结。

针对大数据问题我们搜集了14个选项,包括科学问题相关的数据的科学问题、大数据的基本内涵、计算模式,跟技术相关的是大数据的多样性和数据态、大数据的空间维问题、时间维问题,如何将大数据变小及数据的价值提炼。数字都是70位委员的投票数。也包括了大数据的关键应用领域,以及大数据对IT技术和架构提出的安全与占、数据的安全和隐私。最后一个是大数据的生态问题。侯选项相互之间是有一定的重叠,而且颗粒度也不完全一致,完全是由专家自己提出来的,我们给他做了会聚,没有做一些很精细的加工。但基本上大家的投票结果来看,投票率还是非常高的,比如说数据的计算模式问题关注度非常高。投票的初始结果我们给出了大数据热点问题的八个方面。

第一个方面是数据科学与大数据的学科边界问题,涉及到侯选项的两项,讲到了数据界、物理界与人的关联是什么,数据是不是客观存在的空间和现象。还有数据有没有独立的问题。大数据的基本学科边界有一个内涵和外延的限定,以及区别于其他数据的关键特征。最近有一本出版的数讲的是大数据不见得规模大,而是比较全。当然这是一种新的说法的。也就是说大数据的基本问题和边界是什么。这是我们关心的第一个大的方面。

第二个方面是数据计算的基本模式和范式问题,包括了数据密集型计算的基本范式是什么,以及数据计算的基本评估和数据计算的复杂性,以数据为中心去中心化的自主计算模式是不是数据计算的主要的模式。

第三个热点问题是大数据的特性和数据态的问题。从数据的复杂性来讲,数据的关联模式、关系为复杂,数据的空间为复杂,包括数据在人机物三个空间里以及柔性密度的所产生的空间维度的复杂性,以及跟时间相关的特性。我们把它总结为大数据的基本特性和数据态的问题。

第四个热点问题是大数据的作用力与变化反应。包括了两个方面,第一个方面是如何将大数据变小,在尽量不损失价值的情况下减少数据的规模,像数据的清洗、去除等等,也是如何有效地处理大数据类似物理的作用把大数据的规模变小但不损失价值。第二个是化学作用,从一个平面的大数据提炼出高附加值的概念、知识和智慧。大数据的探索和可视性在这里面可以得到很大的发挥。计算方面我们通过群体指挥以及认知等方面发挥和提炼。

第五个问题是大数据的安全和隐私问题。投票是59票。

第六个问题是大数据对IT技术的挑战,包括存储、传出和分布式计算相关的整体架构的变化。今天的Hadoop实际上是应对大数据及大数据处理的相关的架构,虽然它目前的影响力很大了,但离成熟还有很远的距离,也就是说大数据的发展和爆发对IT架构提出了大的挑战。

第七个问题是大数据的应用和产业链的问题,。大数据有大价值,但在产业上如何形成有效增益的环境,以及大数据到底在什么样的应用领域里能够发挥绝对的价值,比如说跟社会科学、跟金融相关的,后面还会有一些分析,这个投票方面有大数据的应用和产业链。

第八个问题是大数据的生态环境问题,如果大数据时代真正地来临,从数据变成资产、数据的加工和制造,甚至在前期讨论有数据的制药,有新的数据工业和数据衍生品,这种数据市场和数据衍生品带来的市场的繁荣,另一方面是政策、环境包括投资环境和管理政策方面以及科研、研究所、学生的培养和国家政策的扶持方面形成的生态环境是大数据的第八个关键热点问题。由于大数据广泛的使用也会带来政治伦理政治方面的问题,我们统称为大数据的生态问题。

这是我们提炼出14个侯选项广泛地参与意见和投票之后提炼出的大数据时代的核心问题,这是目前的认识,也许未来这个问题包括在座的每一位同仁们可能有自己的想法,我们只是抛砖引玉,对大数据的核心问题提炼出八点。

第一个方面的议题是发展趋势。任何的预测都是有问题的,我们发布的时候其实心里面是没有底气的,题目是在2013年在最近的距离内可预测的大数据的发展趋势是哪些方面,搜集了一些相关的内容,包括了70多位专家以及跟数学领域的专家合作,大家提炼出的发展趋势有37项,包括大数据的整体态势和发展趋势,大数据与学术、大数据与人类的活动,大数据的安全隐私、关键应用、系统处理和整个产业的影响。这方面总共有37项。大数据的整体态势上,数据的规模更大,数据资源化、数据的价值凸显、数据私有化出现和联盟共享。大数据有没有形成新的学科,当然仁者见仁智者见智,有很多人提出很多的想法。跟学术相关的包括数据科学的兴起,数学学科发生了很多的变革,由于数据学科的产生反过来影响为物理学和数学提出的新的要求,需求促使了技术学科的发展和变革。颗粒度不太一样,还有一些自主计算,基于海量知识的智能的革命性的方法。有更奇妙的人机互联。大数据的隐私安全及跟国家安全相关的问题,我们也希望提出一个问号,总令人瞩目的大数据的应用到底是什么。还有基于大数据的决策支持、大数据的预测和清洗,大数据跟大企业的信息的推荐。大数据的系统处理上处理能力难以满足需要,处理模式多样化以及带来的网络带宽的压力。如果大数据来了以后把数据的价值充分发挥出来,网络的传输、网络的管理会带来一些非常突出的压力。资本会不会高度关注大数据,已经有一些资本界的朋友们过来了,产业结构和政策出现新的变化的时候以及数据产品的丰富和新的数据外部产业的分析师和新的职业的产生,这是对整个大数据领域提出的37个侯选项。

大家关心的大数据既跟学术有关,也是跟社会相关的。基于前面的侯选项可以看到T6最令人瞩目的学科是什么,T19。比如说2013年最令人注目的学科是大数据的分析与预测。第二个是分布式系统,写法上大家更喜欢叫云计算,实际上对大数据的支持不见得是新的学科但是是非常重要的问题。

第二方面是最令人注目的应用是什么。我们只是给了一个表让大家填,并不是说给了几个内容让大家投票,所以有很多惊人一致的地方。大家认为大数据在医疗领域被认为是最有可能产生重要价值的。之后在金融领域有14人投票,电子商务和城市管理有10人投票,当然还有其他的问题,我们把最重要的、大家认为最关键的题目拿出来。之后再来看发展趋势的侯选项,这个倒过来排,第11、12的是发展趋势2013年,一个是大企业大数据,大企业对数据的使用使得大数据成为大企业的核心竞争力,描述中不只是大企业大数据、而是大政府大数据。有一些问题还是比较粗放的,大数据大企业以及资本的高度关注都得到了22票的支持。大家预测2013年的时候资本开始真正投资大数据。

第八个侯选项的趋势叫更大的数据,大家可能会觉得大数据的观念会使得大家更关注和更清晰。

第七位是大数据新职业,会产生数据分析师、数据科学家、数据工程师,有非常丰富的数据经验的人才会成为稀缺人才。

第六项是数据共享联盟,这个应该是比较确定的,数据共享联盟将逐渐壮大成为产业的核心一环。之前在科研界一直在强调数据共享,有共同的benchmark,但一直没有形成非常有效的环境,价格的驱动环境下,也许在产业界的数据共享联盟比研究界的数据共享联盟更容易一些,当然我们在研究界也会推荐数据共享联盟的建立。数据的兴起会有很多人讲写数据科学的书,讲我做的是数据科学,我的方向是数据科学,所以是不是数据科学很清晰这不知道,但数据科学这个词会越来越热。

第五位是大数据安全。只要是大数据真正地走向应用一定是一波新的技术革命。第五项是大数据分析的革命性方法。大家觉得大数据分析方面也会出现一些革命性的新的情况,但这在2013年是不是就会出现,很难说。也是方法在量变的同时会呈现质变。

第四的是基于海量的知识智能。也就是说基于大数据的知识智能。

第三项是大数据与云计算等资源的深度融合。

第二是大数据的隐私问题,比如说每天手机产生的通话、位置等等。但这给带来了便利的同时也给带来了个人隐私的问题,这已经不是说在纸上谈兵了,已经成为了一个非常重要的问题了。

第一个是数据资源化,大数据在国家和企业和社会层面成为重要的战略资源,成为新的战略制高点和抢购的新焦点。

我总结一下,刚才从热点问题和近期的发展趋势给出了这样的总结。热点问题上,通过大家的提炼,我们发现了八个热点问题,数据科学与大数据的学科边界,数据计算的基本模式与范式、大数据的作用力和变换反对。大数据特性与数据态,大数据安全和隐私问题,大数据对IT技术架构的挑战,大数据的生态环境问题,大数据的应用及产业链。至少我们在搜集这些问题的时候邮件大概发了上千次,多次地交流和讨论。发展趋势这块,我们排名前三位的是数据的资源化、大数据的隐私问题突出、大数据与云计算等深度融合,至少在2013年是非常明显的趋势。技术的机遇大数据的智能会陆陆续续地有一些发展和变化。当然了,我们是希望未来每年将对大数据的热点问题和大数据的下个年度的发展趋势进行充分的调研,我们也希望每年都在Hadoop与大数据技术大会发布。今年的时间相对比较仓促,前后大概在一个多月,邮件有上千封,我们也希望明年再组织热点问题和发展趋势的时候,在座的每位同仁都可以积极地参与,奉献自己的创意,这不是靠几个专家就可以点出方向,希望每参与进来以后,可以形成真正的有影响力和震撼力的,不是像某些学科一个新的概念来了以后都在炒作,而是希望能够经过大家的共同的智慧、群体的智慧,对方向的概念和问题形成一些共识,变成我们共同努力的目标,共同奋斗的方向。这是大数据专家委之所以发起这个问题的初衷,也是希望我们每年做这项活动的时候,未来的一些手段能够更加地灵活,时间上会提前邀请大家共同来做这样的事情。

最后,讲到了大数据的共享联盟,今天的Hadoop与大数据技术大会上专家委员会有成立了一个组织,叫“大数据共享联盟”,我们的宗旨是搜集大数据、展示大数据、促进大数据的研究与开发,同时我们要构建联盟,这个完全是志愿的,我们也希望更多在座的百度、阿里、腾讯、雅虎、Facebook等企业参与,也希望国内国际的大企业,你们在业界上做得非常好,而且有很多公信力和社会公益,我们能不能共同推动大数据的共享,建立共享平台。大家热心地参与到联盟里来,为我们来源于大家、服务于大家、构建更好的大数据的深层发展和生态环境。