丁力:从中美视角看“互联网+”时代的中国开放数据

8月30日,由七牛公司主办的主题为“数据重构未来”的“七牛·数据时代峰会”在上海国际时尚中心继续举行。全球首款语义网搜索引擎作者,语义分析、人工智能与社交图谱分析专家丁力就中国开放数据发表了演讲,以下为现场实录:

 
        丁力:各位好!今天非常有幸能够作为第一个技术专家给大家作报告。
 
        今天我这个报告,开始点就是从这个数据和信息之间的关系开始,说我们今天各位都讲了数据有很多价值,我们可以通过数据分析,让这些价值得以实现,这样很好。其实数据的价值被用户真正应用了以后,它才能真正成为一个社会的财富,而想实现这个数据分析,从我们数据的获取、积累到数据的分析,其实还有一点比较有意思的地方,我这个原始数据不这些数据放在这很好,我怎么用,我很强的,数据挖掘,很牛,但是你得把数据转化好,然后关联起来我才能用,中间的话,就产生了一个鸿沟,这个鸿沟就是我今天要讲话题,待会儿我们可以看看这里面有什么有意思的东西。
 
        想必各位都是有家的人,不管自己一个人在家还是二人世界还是家里有了孩子,有了孩子以后,一定会想我得买个房子,或者找一个好的房子住下来让我的孩子有一个高的教育环境,怎么办我得想我得找学区房这个事情放在美国有意思。买学区房是不是离学校近就好,不一定有的房子不属于这个边界。那怎么办?我们现在做了一个数据的聚合,各种各样的数据包括地图数据、学校学区,你看这个地方,这些数据它们聚合在一块才能形成有效的应用,单独一个数据说我这有一个房子价值170万美元,对于购房者这些信息不够,也达不到真正的社会价值应用。所以说数据的完整对我们来讲是一个非常关键的事。
 
        说到数据聚合,大家讨论说,那我数据从哪里来?一方面,我们可以网上搜。2009年的时候,美国总统奥巴马上台的第一天,签署了我们要让政府的数据更为公开,让老百姓、纳税人能够免费获取这些信息。那么六年以后发生了什么事?这是美国政府开放数据的网站,这个是官网。大概将近16万数据集覆盖了各个领域,超过500亿特家公司,正在有效利用这些政府数据实现经济价值,而这些公司中不乏有上亿美元的公司,这些大家熟悉有不太熟悉的,有房地产、新能源的、有地图的,还有旅游的。开放数据在全球领域是什么概念呢?2013年在报告里说,开放数据属于可以好好利用,每年可以给世界带来超过3万亿美元的数据增值,如果我们开放出那就不可想像了。
 
        开放数据具体来讲是什么事?这是一个很好的例子。一个教授说,美国和中国是什么关系,我们怎么对比,如果这个事情现在发生有应用已经做了,有论文已经讲了,可是放在十年前放在五年前我们怎么做,就去挖掘数据、寻找数据,然后就去关联起来。不仅有国家、本国,有自己的货币,还有汇率这些数据找到了,我们十年前找不到数据,现在我们找到了。第二步,还要把它们统计,形成一个统一的,然后我们才能基于美元的标准下做一个对比。
 
        像这样的例子,还有很多。为什么会有这些呢?因为我们从2009年在美国的大学,我们在这个学校里面,从美国政府的开放数据网站,2009年上线开始我们就和它合作。致力于连接数据、知识图谱的技术,利用于这些开放政府数据过程中,这个过程,让大家做这个成本降的更低涡之做得更快,未必做得很好看,但是我们告诉我们所有开发者说这件事没有那么难,是很容易的,而且能够很快做出一个原形让我们很快验证我们的想法,这时候创业就是一个路子。这里面我们看看访客的数据,奥巴马也可以美国英国阿富汗投资侧重点是什么东西,甚至可以研究一下股票,股票的变化和推特里面的消息有什么关系,这些数据我们从各行各业,有的从政府获得,有的从政府之外获得的,这些数据通过技术聚合在一块,形成了可以被用的架构。最终帮助我们开发者做出原形,让他们能够直接可视化的方式做一个结果,并不包括我们刚才讲的数据挖掘,我们现在只是把数据展示出来,这样已经让人解决了很多问题。
 
        在这个过程中,我们还遇到很好玩的,美国开放这个数据,针对于癌症患者,觉得还不错,我们可视化以后就发现,这个过程中,为我们展示了很多可能性,当数据通过这些展示在客户中,我们很多没有预期到的都会发生。
 
        这个是我们的成果之一,第一就是说一方面我们应用作为实际的应用,为我们科研领域产生重大贡献,刚才我们做的工作在2001年的国际大会上,因为我们在美国政府数据中的贡献获得了它提供的二等奖。第二个我们在实质上操作中,把它为全世界提供了免费开放数据数量提供了一倍多。虽然看起来,可能只有不到六分之一大小的数据题是从政府来的,政府数据大,覆盖领域全面,所以不止是音乐、论文的数据,而是覆盖了国际民生各个领域,这样让数据的价值可用性提高了很多。
 
        我们刚才说了Mashup,到底什么是Mashup。Mashup可以以多种形式产生,这个也是基于开发的重要层面。一个是数据层面的Mashup,一个是可视化的层面的Mashup,就是说我们有不同的工具,把它也设置了起来,下面两张屏幕就是不同的地图和图表的方式,最后我们还可以在应用层次做可视化的Mashup。这个需要什么呢?就是需要你说的这个地方是我说的地方,不要到时候你说中国的,然后我是美国的,这个过程中,需要大家有一点点共同的协议,能够说,我们说的是同一间事,待会儿我们讲的就是这个技术。
 
        我们做这个工作,从技术上带讲的话,也涉及了很多具体的技术细节,这是我们的一个架构图,最底下数据的提供者,它不只是包括企业、个人都是数据的提供者,这些数据的提供者,它总是要提供数据的,它提供数据的话,习大大说我们要开发数据,就都放在网上了。这个是自下而上的方式,而且它有一个问题,我们的数据要放到什么程度,是直接到网上大家都可以用,还是要变成特别厉害,变成更漂亮可以分析的数据呢?这个大家都不知道,怎么办,不知道怎么办没关系。我们还有另外的方向,我们要做一个买房的应用怎么办,我就要这样,这几个数据,这个时候数据皮球来了。看看有没有这个数据能不能开放一下,他说我们给你一个数据你要什么级别,逐渐形成一个需求驱动,数据提供的体系,这个对数据生态圈有一个非常大的影响。我们说开放的程度也分为不同的层次,最低层我把数据有一个名单,说我有这个数据,但是你得跟我要,给我打电话就行了,还有一个那就把数据放在网上我不在乎,但是这个数据就这样,你爱要不要,这个数据放在这,你随便处理,我不做进一步处理,更进一步,它可以说我把这个数据,不是通过一本书我给你发过一个邮件或者七牛传过来电子版,更进一步我是一个好人,麻烦数据库变成CSV,更进一步我就不给你做开放格式了,你可以目前很容易打开,同时我还可以做的很规整,北京市或者北京这两个不同的词让你感觉到做数据不是很难。
 
        进一步我们会发现,不同层次的话,是按需求来决定的,不是想像当中我把数据全都生成,全部做成最高标准,成本很高。另外一方面,它解决的问题,要从数据的清理到观点  查询,都可以让用户把数据串联起来。这个过程中,我们常规的方法,就是说我们请几个小姑娘来做数据清理。更进一步想法,我们考虑用机器学习的方法,自然语言处理的方法,把数据华自动化处理,降低我们的人工成本这是很重要的关键,也是我们很感兴趣的一个研究方向。
 
        在2012年的时候,我独导采编了杂志的文章,吸引了美国、英国、澳大利亚国家的开放政府数据负责人投稿,讲讲他们发展的迹象,中间分析他们的结果,我们看到一个到底我们还有什么问题。这个结果,我们需要更多的数据在网上,让更多数据互联起来,然生更多的应用,我们就提出了三个挑战,能不能有一百万数据放在网上,让大家公开,能不能让这一百万数据变得互联起来,让它们产生更大的价值,还有能不能做一百万应用让全民都成为这些数据的受益者。
 
        同样在中国,这样的问题也确实存在。要想解决这些问题,我们一个个来解决,这是创始人,我们就出了这么一个产业,在座的各位都是拜他所赐。你既然要数据,那就把数据放上去,不要等还没整理好,就直接放上去。放上数据我们看看这个情况,在中文数据领域的话,5年前还是惨不忍睹,当时我们做美国政府数据时候,中国有没有开放数据,那好吧,我们到统计局随便拿一个数据。到了今天,包括在上海市都有开放数据平台,包括门外上海开放数据挑战赛,这是很可喜的事情。第二大家都已经喜闻乐见,各种各样的数据开放平台,还有数据的交易中心,所以中文数据并没有我们想像的那么悲惨,数据那么少,地方的确这些数据还缺少互联。
 
        另外一个方向,我们有这些数据的话,我们还可以有其他什么方法?我们还可以从网页上获取数据,或者从开放获得数据,这些数据尽可能让数据提供商以更简易更有效的数据,藏在数据之下的暴露出来,这样需要很多的工具和努力。
 
        在我们这个过程中,值得一提在中国特色或者全球特色,数据API成为一个非常有意思的东西。如果我们单单把公开的数据放在网上放在网页上下载,第一感觉,放在网上别人一下在多亏,现在大家都想,我们利用API,一来可以控制全线,第二我可以让人持续访问,我可以把数据更新体现出来。所说数据API将来会是一个非常重要的角色。
 
        第二个问题,其实是今天的重点,我们当时有一个数据,我们分析数据中间的,我们需要其中两个很关键的技术,一个是图谱,一个是语义搜索。旁边这张图,1990年他说我们要做网,这是它最初对万维网的构想。知识图谱也是类似,也是互联,让大家能够共享。
 
        知识图谱到底是什么?大家都提了很多次,很多时候我们说就是谷歌做的图谱,微软做的,这两个词不一样,我们想做一个知识库,但是我们知识库跟他们不一样,事实在一个知识库里面,我们就看到这样一个东西,一个是实体,我们不管看到范爷,还是春哥都是一个实体。他们关联起来,某某人是王菲的前夫这就是一个关系,再进一步来讲,我们有这些关系,到时候用怎么查得到,大家很纠结前夫到底是哪个,大家有一个统一的说法,最近也不叫最近,今年大家也在不断努力,用这个词。这里面就涉及到,我有一些通用的名词,概念,让大家能够共享。再之后,有了词、有了网站我们怎么表示,我们一个想法就是关系数据库,有些比较复杂,不然我们也不会有这个。过程中我们在语义网,为这个事情提出一个想法,我们能不能找一个更简单的知识表示方法,SPO,王菲是前妻。中英文表达方式不太一样这是一个顺序的关系。这个例子带讲,它的导演,他是一个人,要找导演的话,就是一个人,这个导演这部电影。
 
        知识图谱在这个里面跟以前知识图谱有一个很大的区别,有几个比较重要的东西,知识图谱来源不像传统知识图谱,我们一个要作坊或者一个领域专家,我们坐下来花一年时间整理,放在这是不够。在这个过程中,还有很大一部分,数据来自开放,知识图谱数据在量级上比小小知识库高出很多,我们有很多实力而不是简单的一两个单位而已。第二个知识图谱要跟自然语言结合起来,不会专门给你添表,就是自然语言表述出来。同时当我们做搜索,或者进行应用的时候,知识图谱又要嫁接,说这是我们结构化的表示,这是用户真实需求,知识图谱要能够通过一些知识表示的方面,让这个过程变得更为完善,所以说知识图谱在某种程度上讲不简单是一个知识库,而是自然语言紧密结合的知识库。
 
        这里面另外一个知识图谱,我们4月22号,要做一个MU5186这个很好,我们订飞机票,收到这样一个消息。最简单的说法,MU5186是表现的东西,其实表现够了。你现在说时间是什么时候,航班号是什么时候,我给你解析出来,编辑航班号,就简单了,我们给你查,查可以查这个钢板,这天航班从哪开始出发,这个很重要,从哪个机场哪个航站楼出发,如果大家常去机场,如果北京机场、上海机场有很多航站楼的时候,去错了航站楼那就惨了。有了这个数据,我们这个数据就是完全不用人工,就是机器把数据补全,这样还是不够,我们知道MU5186我只能得到这张卡片这是登机牌什么时候去登机,那我怎么去,我打车我去纳,还是要说具体的航站楼这时候就有地图,告诉你去航站楼。
 
        我这有一个例子,我从上海到北京,但是一旦显示出来,显示出虹桥那边,不注意文字,但是地图很明显,离那么远,那就不是虹桥是浦东。这个过程中,可以看到数据在不断被细化,补全,这个过程中,语义理解、数据服务、知识图谱都起到了不同的作用。
 
        另外一个关键是语义搜索,语义搜索它是跟语义知识图谱紧密结合,没有知识图谱我们也谈不上具体的语义搜索只是结构化数据查询或者是数据查询。语义搜索有很多关键技术,真正让知识图谱这个知识,直接和人的需求产生对接。这个地方,它常见的应用常见,就包括语义匹配,很简单,我刚才说MU5186这可以匹配出来这是一个航班号,可以找到,这从自然语言这句话,对应在知识图谱中有这样一个时间、节点,这时候我们开始在结构化数据领域进行操作。
 
        第二,语义理解跟语义匹配差别,语义匹配是单独匹配一个点,MU东航5186是航班号,语义理解是某年某月某日的东西,甚至我不说我还能够有其他方法,可以比出来他在说什么,今天是什么时候,还是通过几点方式,进一步理解你原来说4月22号而不是4月21号,语义理解在这个过程中也是一个非常关键的语义搜索过程。进一步最常见我们就是说rich snippet,在谷歌、百度各种搜索已经被完全释放出来,我们自然语言文本,我们同时也把语义搜索的结构,也被匹配上去,我们有例子看。排序、问答,所以说到最后语义搜索就是一个智能的助理,他说我想订一张票从北京到上海,他就可以说现在在上海然后去北京,你现在走不了就明天,或者按照你常规的时间,来给你派。通过对个人的知识图谱,整合,它能够帮你说我搞清楚你明天早上一大早飞机,帮你形成一个你想找到的一个答案。这个过程中,我们讲对接,从人到机器产生的数据这是很重要的。
 
        这个例子,大家都见过。
 
        更多的数据,这个数据的发展,谈到数据生态圈,大家都讲数据生态圈,我们要让数据生态圈发展。刚才我们已经说了,架构让需求化和层次化的服务,让数据能够更好流动起来。这里面还有另外一件事,就是讲Licnese,这个地方很有意思,美国政府数据完全公开免费,但是别的国家不一样,而且在中国这个情况又必须特殊,所有政府数据版权归国家所有,各个国家包括百度开放地图的时候,也是冒了很多风险。但是事情就是说在我们数据生态圈里面很重要的问题,将来我们一方面数据免费让大家用,另外一方面我们能不能考虑一些,让大家共享的方式,让大家都能从数据分享中获得价值。
 
        这里面总结了一下我们解决数据生态圈里面的一些重要方法,包括数据发布、数据功能知识图谱的发展,语义搜索技术的发展等等。简而言之,如果我们想要发展这个生态圈,还是要尽可能有这么一个基本原则,那就是各尽其能。我们希望在不久的将来我们也能够做到。但是在目前为止,我们按照分配,都能够让大家有更高的积极性,把这个架构搭起来。
 
        关于我自己的话,时间有限,只能讲讲自己,那就是一个数据民工,从北大毕业以后,去美国辗转各地,见证了各种重要事情的发展,包括智能助理、知识图谱、语义搜索、开放政府数据的各项重大事情的发展,作一个见证人还是比较有意思的,到目前为止,到我创业之前为止,我感觉有一件很大的事,我们做研究,找了这么多技术,帮了这么多人,也帮大家做一些实质性的东西,我们就把这些技术带到实际应用里面来。做什么呢?我们现在做一些小小的创业工作,把刚才我们知识图谱还有语义理解这两个东西做好、做到极致。让人民群众能够在知识生态圈中,你得到了数据,我帮你解析这个数据,帮你把数据关联起来,分析,看到价值。大家有空尝试一下,我们这个,以后还有更新的东西给大家推出,谢谢!