程学旗:大数据的再认识

程学旗先生是中科院计算所副总工、研究员、博士生导师、网络科学与技术重点实验室主任。本次程学旗带来了中国大数据生态系统的基础问题方面的内容分享。大数据的发展越来越快,但是对于大数据的认知大都还停留在最初的阶段——大数据是一类资源、一类工具,其实“大数据”更多的体现的是一个认知和思维,是一种战略、认知和文化。

一年多来,通过组织中国大数据技术大会、CCF大数据学术会议以及各类大大小小的应用峰会与学术论坛,结合我们科学院网络数据科学与技术重点实验室所承担的与大数据相关的重大基础课题研究以及与情报分析、互联网数据分析相关的应用开发实践,我谈谈自己的一些思考。

今天引导性讨论的内容可以包括三大块,包括:对大数据的再认识、引擎平台系统支撑下的大数据分析技术、建立大数据产学研生态环境的基础性问题思考。

1、关于大数据的再认识

大数据是一个宽泛的概念,见仁见智。关于大数据的概念,当前比较普遍使用的定义都与维基百科中的描述类似:“大数据,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯”。而这类定义的一个明显的局限是仅仅从大数据的计算机处理视角给出的关于大数据的一个特点描述。

我们知道,对一门学科的认识,往往是从分类开始的。就像达尔文提出进化论,原始的动机就是将从全世界观察到的动物和植物进行划分,形成体系。在分类体系上进行提炼,最终形成了一个全新的世界观和认识论。我们现在所关注的网络大数据、金融大数据、科学大数据等相关领域的问题,正像欧洲文艺复兴开始的的时候那样,从不同领域观察现象,挖掘价值,而最终我们可能能够发现本质,形成全新的“数据认识论”,从而产生本质性的价值效应。

我个人认为,“大数据”更多的体现的是一个认知和思维,它与钱学森先生提倡的“大成智慧学”的要义非常接近。钱老将“大成智慧”翻译成“WisdominCyberspace”,强调“必集大成,才能得智慧”。大数据从内涵来看的四个V的特性,体现出来的是大量的“零金碎玉”,相互之间还有关联性和作用力,但是局部看都非常零散、价值不明显。所以有了数据,不等于就有价值、出智慧,出智慧的关键在“集”。大数据中包括的全部事实、经验、信息都是“集”的对象和内容。采集到的原始数据往往是些没有什么逻辑,不一定能直接用现在掌握的科学技术解释,需要集成融合各个侧面的数据,才能挖掘出前人未知的大价值。每一种数据来源都有一定的局限性和片面性,事物的本质和规律隐藏在各种原始数据的相互关联之中。只有融合、集成各方面的原始数据,才能反映事物的全貌。开展大数据研究和应用,因此,大数据不仅仅是一类资源、一类工具,而是一种战略、认知和文化,要大力推广和树立“数据方法论”、“数据价值观”。

当然,我们既要抬头看路,更要脚踏实地。因此,在大数据概念满天飞的时候,我们既要抓住时机,挖掘价值,还要思考本质,不在混乱的时候迷失方向!

从业界来看,当前大数据系统有三个明显的特点与我们2013年底发布的十大趋势相关!

【1】大数据的高效深度分析需要专用化的系统

在应用数据快速增长的背景下,为了降低成本获得更好的能效,大数据系统需要逐渐摆脱传统的通用技术体系,趋向专用化的架构和处理技术。这方面,国内百度、阿里巴巴和腾讯三大互联网巨头做出了尝试并取得了很好的效果。众所周知,百度的大数据典型应用是中文搜索,阿里巴巴的大数据典型应用是基于交易日志分析的数据服务,腾讯的大数据典型应用是图片数据存储和基于用户行为的广告实时推荐。百度去年底成立专门的大数据部门,旨在深度挖掘大数据的价值。阿里巴巴已将不同业务部门的大数据技术整合在一起为数据产品提供统一的服务。腾讯的数据平台部正在将全公司的数据纳入统一管理平台。阿里巴巴在技术上与开源社区结合得最为紧密;腾讯大数据目前正在向开源技术靠拢;百度在技术层面偏好自行研发,包括软硬件定制化方案也是最先投入实用。技术上,他们的共同之处是,不再依赖传统的IOE,而基于开源系统(如Hadoop等)开发面向典型应用的大规模、高通量、低成本、强扩展的专用化系统。

【2】大数据处理架构多样化模式并存

当前,克隆了Google的GFS和MapReduce的ApacheHadoop自2008年以来逐渐被互联网企业所广泛接纳,并成为大数据处理领域的事实标准。但2013年出现的Spark作为一匹黑马终结了这一神话,大数据技术不再一家独大。由于应用不同导致Hadoop一套软件系统不可能满足所有需求,在全面兼容Hadoop的基础上,Spark通过更多的利用内存处理大幅提高系统性能。此外,Scribe、Flume、Kafka、Storm、Drill、Impala、TEZ/Stinger、Presto、Spark/Shark等的出现并不是取代Hadoop,而是扩大了大数据技术的生态环境,促使生态环境向良性化和完整化发展。今后在非易失存储层面、网络通信层面、易失存储层面和计算框架层面还会出现更多、更好和更专用化的软件系统。

【3】实时计算逐步受到业界关注

Google于2010年推出了Dremel,引领业界向实时计算迈进。实时计算是针对MapReduce这种批量计算的性能问题提出的,可分为流式计算和交互式分析计算两种模式。在大数据背景下,流式计算源于服务器日志的实时采集,如Facebook开源的Scribe是分布式日志收集系统,ApacheFlume是类似的系统。ApacheKafka是高吞吐率的分布式消息系统,特点是高通量和容错。Storm是容错的分布式实时计算系统,可以可靠的处理流式数据并进行实时处理,单机性能可达到百万记录每秒。Storm可集成ApacheKafka作为其队列系统。作为批量计算的补充,交互式分析计算的目标是将PB级数据的处理时间缩短到秒级。ApacheDrill是开源的Dremel实现,虽已有应用但尚不成熟。由Cloudera主导的Impala也参照Dremel实现,同时还参考了MPP的设计思想,目前已经接近实用阶段。Hortonworks主导开发了TEZ/Stinger,TEZ是运行在YARN(Hadoop2.0的资源管理框架)上的DAG计算框架,而Stinger是下一代的Hive。2013年底,由Facebook开源的Presto分布式SQL查询引擎可对250PB以上的数据进行交互式分析,比Hive的性能高出10倍。类似的Shark是Spark上的SQL执行引擎,得益于Shark的列存储和Spark的内存处理等特性,Shark号称可以比Hive的性能提高100倍。

2、系统支撑下的大数据分析技术

【1】内容分析与深度学习

要挖掘大数据的大价值必然要对大数据进行内容上的分析与计算。这其中一个核心问题是如何来对数据的进行有效表达、解释和学习,无论是对图像、声音还是文本数据。传统的研究也有很多数据表达的模型和方法,但通常都是较为简单或者浅层的模型,不能获得好的学习效果。大数据的出现提供了使用更加复杂的模型来更有效地学习数据表征、解释数据的机会,深度学习就是这样一个研究领域,它已经在计算机视觉、语音识别等应用取得了成功。在国际上,微软将RBM和DBN引入语音识别中,使得错误率相对减低30%;Google的深度学习系统(DistBelief)在获取数百万YouTube视频数据后,能够精准地识别出这些视频的关键元素猫。在国内,2011年科大讯飞首次将DNN技术运用到语音云平台,并提供给开发者使用,并在讯飞语音输入法和讯飞口讯等产品中得到应用。百度成立了IDL(深度学习研究院),专门研究深度学习算法,目前已有超过8项深度学习技术在百度产品上线。深度学习对百度影响深远,在语音识别、OCR识别、人脸识别、图像搜索等应用上取得了突出效果。此外,国内其它公司如搜狗、云知声等纷纷开始在产品中使用深度学习技术。

【2】知识计算

基于大数据的知识计算是大数据分析的基础。当前,基于开放网络大数据构建知识库是国内外工业界开发和学术界研究的一个热点。世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到了上百种。其中,有代表性的知识库或应用系统有KnowItAll,TextRunner,NELL,Probase,atori,PROSPERA,SOFIE以及一些基于维基百科等在线百科知识构建的知识库DBpedia,YAGO,Omega,WikiTaxonomy。除此之外,一些著名的商业网站、公司和政府也发布了类似的知识搜索和计算平台,如Evi公司的TrueKnowledge知识搜索平台美国官方政府网站Data.gov,Wolfram的知识计算平台wolframalpha,Google的知识图谱(Knowledgegraph),Facebook推出的类似的实体搜索服务graphsearch等。在国内,中文知识图谱的构建与知识计算也有大量的研究和开发工作。代表性工作有中科院计算所的基于OpenKN(开放知识网络)的“人立方、事立方、知立方”系统,中科院数学院陆汝钤院士提出的知件(Knowware),上海交通大学构建的中文知识图谱平台zhishi.me,百度推出的中文知识图谱搜索,搜狗推出的知立方平台,复旦大学GDM实验室推出的中文知识图谱展示平台等。

【3】在线社会计算

社会媒体计算是大数据分析的典型应用之一。以Facebook、Twitter、新浪微博等为代表的社会媒体正深刻改变着人们传播信息和获取信息的方式,人和人之间结成的关系网络承载着网络信息的传播,人的互联成为信息互联的载体和信息传播的媒介,社会媒体的强交互性、时效性等特点使其在信息的产生、消费和传播过程中发挥着越来越重要的作用,成为一类重要信息载体。正因如此,当前社会媒体计算无论在学术圈和工业界都备受重视,大家关注的问题包括有对社交网络的分析、网络信息传播的内在机理以及社会媒体中的信息检索与挖掘(包括用户搜索、用户关系挖掘、话题发现、情感分析等)。在这些面向社会媒体计算的研究中,面对的社交网络是一个异常庞大、关系异质、结构多尺度和动态演化的网络,通常有亿级的节点,几十亿条连边,对它的分析、建模和计算不仅需要提出适配这样的复杂网络的关系抽象、结构建模和演化计算方法,更关键的也是更基础的是需要支持这样大规模网络结构的图数据存储和管理结构,以及高性能的图计算系统结构和算法,这也催生了当前很多图数据库和图计算平台的产生(如neo4j,GraphLab等)

【4】可视化成为大数据分析的热点

大数据引领着新一波的技术革命,对大数据查询和分析的实用性和实效性对于人们能否及时获得决策信息非常重要,决定着大数据应用的成败。越来越多的企业在直面纷繁的海量数据冲击时面露难色。一个原因是因为数据容量巨大,类型多样,数据分析工具面临性能瓶颈。另一原因在于,数据分析工具通常仅为IT部门熟练使用,缺少简单易用、让业务人员也能轻松上手实现自助自主分析即时获取商业洞察的工具。因此,数据可视化技术正逐步成为大数据时代的显学。对大数据进行分析以后,为了方便用户理解也需要有效的可视化技术,这其中交互式的展示和超大图的动态化展示值得重点关注。如果一个机构尝试迈向大数据模式,那么一定要有相当分量的数据可视化投入。

总结:系统支撑下的大数据分析技术,从学界的关注点以及业界的突破点来看,当前可以总结为四个特点:“深度学习提高精度”、“知识驱动提高深度”、“社会计算与仿社会计算促进认知”、“可视化与分析算法互为因果”。当然,数据分析技术解决的问题还是如何有效的挖掘和利用数据价值。

3、关于中国大数据生态系统的基础问题思考

【1】建立良性生态环境的目标

针对国家安全、社会经济等领域的数据化生存与竞争的需求,我们需要切实解决网络化数据社会与现实社会缺乏有机融合、互动以及协调机制的难题,形成大数据感知、管理、分析与应用服务的新一代信息技术架构和良性增益的闭环生态系统,达到大幅度提高数据消费指数、数据安全指数,降低数据能耗指数等目标。我们认为,建立良性的大数据生态系统是有效应对大数据挑战关键问题,需要科技界、产业界以及政府部门在国家政策的引导下共同努力,通过转变认识、消除壁垒、建立平台,突破技术瓶颈等途径,建立可持续、和谐的大数据生态系统。

【2】评价先行,提出考量大数据生态的三大指数,包括数据消费指数、数据能效指数、数据安全指数。

1)数据消费指数:

数据消费指数是指使用或者消费的数据占产生的数据的比例,旨在衡量数据消费的能力。当前由大数据引发的新产品、新服务、新业态大量涌现,不断激发新的消费需求,成为日益活跃的消费热点。然而,数据消费指数受到多方面发展状态的制约,包括数据开放和互通程度、大数据分析技术、智能访问终端的普及、数据服务基础设施的建设、数据服务新兴产业的发展等等。当前大数据消费指数低,美国NSA声称只是扫描1.6%的全球网络流量(约29.21PB),分析其中0.025%的数据来支持其分析和决策。我国数据消费面临基础设施支撑能力有待提升、产品和服务创新能力弱、市场准入门槛高、行业壁垒严重、机制不适应等问题,亟需采取措施予以解决。

2)数据能效指数:

数据能效指数是指大数据处理中的价值能耗比例,是衡量大数据价值获取的绿色指数。当前面对大数据,通常采取基于数据中心的粗放式的分析处理和价值提炼方式,导致数据能效低下。一方面,由于缺乏适应大数据的计算模式,往往采取集中式全量处理方式,导致数据处理效率低,获取单位价值所需的数据规模非常庞大,形成了大数据价值密度低的现象;另一方面,为了适应大数据爆炸式的增长,数据中心存储系统的容量、扩展能力、传输瓶颈等方面面临巨大挑战,直接结果就是数据中心的能耗越来越大。有关调查显示在过去5年全球数据中心的能耗增长率是56%,我国对数据中心流量处理能力的需求增长更快,数据中心能耗的问题就更加突出。目前国内数据中心的PUE平均值基本都在2.5以上,与欧美地区的PUE(能源使用效率)普遍值1.8以下还存在着较大的差距。且目前其全球的数据中心50%是完全用自然冷却的,前十大数据中心的PUE都在1.2以下。因此数据能效指数是在大数据发展中必须面对的,关乎国家能源消耗的重要指数。

3)数据安全指数:

数据安全指数包括了数据从创建、传输、存储到分析的全生命周期的安全指标,旨在衡量数据安全、隐私保护等方面的能力。数据安全是一个囊括个人,企业和国家的全方位的大数据安全体系。从个人层面,大数据对于隐私将是一个重大挑战,哈佛大学近期的一项研究显示,只要知道一个人的年龄、性别和邮编,从公开的数据库中便可识别出该人87%的身份。对于企业,数据作为一种资产,其安全保护问题十分重要,随着大数据的不断增加,对数据存储的物理安全性要求会越来越高,从而对数据的多副本与容灾机制提出更高的要求。而在国家层面,来自外部的威胁在大数据时代显然比以往更加突出和危险。举世瞩目的“维基解密”和“棱镜”事件生动昭示着大数据的严酷挑战。“维基解密”几次泄露美国军事外交等机密,规模之大,影响之广,震惊全球。“棱镜”事件向全世界曝光出网络空间国家与个人,国家与国家之间的安全对抗。因此评估数据安全指数,有利于推动大数据安全体系的完善,提升国家、社会和个人的信息安全。

1.如何建立支撑数据密集型科学发现新范式的基础设施:这包括了建立一系列通用的工具,以支撑从数据采集、验证到管理、分析和长期保存等整个流程,支持跨工具、跨项目、跨领域的数据共享与整合,将是支持数据密集型科学发现的基础问题。

2.如何建立数据全生命周期的计算模型:研究以数据为中心的新型计算架构,将计算推送到数据从获取、存储、处理、交换到服务的全生命周期的各个部分,研究数据全生命周期中不同计算之间的关联、互动和共享机制,在提高数据消费能力的同时有效降低数据计算能耗,形成数据安全体系,这是大数据计算的关键问题。

3.如何完成数据资产化和形成数据资产流转体系:亟需建立数据资产化的基本标准,让不同机构、不同领域的数据形成规范化资产;建立数据资产访问、连接和共享机制,搭建数据资产交易平台,形成数据流转的层次化体系结构;研究数据资产的所有权、使用权以及价值评估体系,通过市场化模式保障数据资产流转的可行性。

原文:程学旗:“大数据”相关产学研实践后的思考与小结