2020 WAIC明略科技吴信东深度解读知识图谱的自动构建

2020年7月11日,世界人工智能大会WAIC·开发者日:开发·开源·社区主题论坛召开,全球有影响力的图灵奖得主、顶级技术专家和开发者代表云聚一堂,对当下人工智能前沿理论技术和开发实践进行深度解读。明略科技首席科学家、明略科学院院长吴信东受邀发表主题演讲,分享知识图谱自动构建的方法论和实践,并宣布明略科技HAO图谱开放Text2KG ﻪAPI能力,赋能开发者和企业级用户。

 数据图谱不是知识图谱

 吴信东认为,大多数情况下,我们所说的、所用到的图谱并没有后台知识,只是数据图谱,而不是知识图谱。知识图谱应该有三个组成部分,首先是概念,即图谱的节点。概念跟概念之间是连接,是关系,即图谱的边。只有概念和关系还不够,还需要背景知识解释概念,和连接的语义。如果只有概念、关系,是数据图谱,而不是具有背景知识的知识图谱。

 从数据图谱到知识图谱的构建,可分成三个阶段。第一阶段,人工阶段。对当前问题充分理解,把概念、关系形成节点和边,用计算机程序的方式进行连接、沟通。第二阶段,众包构建。当实体太多,关系类型非常复杂时,需要涉及到群体,形成分布式的开发环境进行集成。第三阶段,自动构建。自动构建,始于美国的华盛顿大学,卡内基梅隆大学,Google的一些早期项目,采取计算机辅助,做自动融合、自动容错的检测机制。

 知识图谱的构建,首先要有数据来源。数据类型可分成结构化数据,例如,表格数据,一个成型的数据库,关系型数据库,或者其他层次化的数据;非结构化数据,包括新闻网页,手写的字段,图片,视频,中间可能是根据需要、场景采集到的数据片段;半结构化数据,例如,网络文章,虽然不是完全结构化的,但一般而言都有标题、作者、摘要,分段落以及结束语,所以具备一定的形式,即半结构化数据。

 知识图谱的构建,要考虑到三种不同的数据类型。其中,非结构化数据,由于语言、描述形式呈现了多样性或灵活性,因此抽取实体、语义关系是知识图谱自动构建面临的挑战。具体而言,信息抽取,需要判断哪些信息的短语、动词是和知识图谱构建相关的。知识融合,需要把每个句子里面存储的不同片段的信息,形成一个整体,所形成的描述形式用于其他的知识处理。

 无论是从信息抽取做知识融合,还是做知识处理,最核心的三部分,一是实体涉及到的名词,二是涉及到中间的关系,三是实体和关系之间,可能有同名,有共线(Co-references),如何冲突消解。

 知识图谱的构建方法

 图谱构建主要有三大挑战:第一,在构建中间可能做了一些信息搜索;第二,后台的知识库可能做了一些信息冗余;第三,随着时间和空间的变化,信息要进行更新迭代。那么,如何构建知识图谱?方法主要有四大类。

 第一类是逻辑建模,用逻辑描述所要抽取的知识图谱包含了哪些概念、关系和背景知识。目前,大多数知识图谱都是逻辑+概率。逻辑,是名词跟名词的关系。当涉及到日常生活、社会经济系统,这些名词的关系不是确定的,所以要加上概率的描述方式。概率+逻辑,通常是用来描述知识图谱的第一种技术手段。其中涉及到一些技术问题,如,逻辑变量、逻辑规则,当量非常大时,使用马尔可夫逻辑网对问题进行简化处理。对问题求解关注度比较高的一些描述形式,把马尔可夫逻辑网介入到概念衍生过程中,达到高效的知识图谱构建和利用。

 第二类知识图谱的构建方法是隐含空间,涉及隐含变量,即有哪些背景知识来解释文本。文本包含的社会背景、人物关系、组织结构,没有在文本中体现,但是要进行了解、梳理。隐含空间分析有多种方法,第一种方法是距离模型,一个三元组,一个head,通过一个relation,推演将来tail究竟是什么。例如,我走到哪一个大楼,到了具体哪一层,中间可能涉及到隐含的变量。假设我今天的目标是要去访问客户,或者做一个项目答辩。根据当前的情况,背景的隐含空间,可以映射我的目标,要到什么地方去,这就涉及到背景知识。所以隐含变量和隐变量模型,核心都是有一些变量是无法看到的,文本没有进行具体刻画的隐含信息。这就涉及到神经网络经常用到的张量模型,张量是全方位的,是三维空间的描述,用像机、二维模型刻画,有些变量、特征不容易展现出来。由此引出矩阵分解,一个矩阵中间可能有一个隐含矩阵,从M到N,中间让它变成N×K的矩阵的描述形式。所以,隐含变量带来了很多的空间和机会,相对困难。现在国内用的比较多的是TransE翻译模型,是从当前的一个变量,翻译到一定程度。

 第三类知识图谱的构建方法是人机交互,通过人在回路,以计算机和人交互的方式,完成对信息的搜集、聚合、消解。核心是一个交互接口。人机交互的图谱构建,基本上有三种不同的模式。第一种模式是通过设计一个计算机程序,让计算机程序对人类专家进行提问,一旦把这些问题进行完整的回答,就把该问题涉及到的概念和关系建立模型,生成知识图谱。人机交互的范式里有Structured ﻪInteractive Knowledge ﻪTransfer(SIKT),即结构化的交互知识牵引,通过计算机交互,把人脑中存在的关于问题的描述,形成知识图谱。面向对象,把实体里面关于知识的描述、知识的牵引进行刻画,形成Knowledge ﻪObject的表示方法,这是第二种模式。第三种模式,是明略科技近两年所做的一种尝试,把人类智能、人工智能、组织智能所涉及的概念、关系进行描述,通过人在回路进行问题的刻画。这三种模式,都涉及人机交互,也涉及一些特定的行业知识。

 第四类知识图谱的构建方法是本体模型。本体模型的意思是,我们在读一个文本的同时,后台有一个词典,或者是有一个知识库,帮助我们理解当前的问题描述。国际上比较经典、成功的是Cyc循环获取方法,基本上有七个步骤,从问题领域的界定,到创建实例,来形成知识图谱。Ontology ﻪDevelopment七步法中间也涉及本体的半自动构建,利用一些专业词典、叙词表,缺点是在复用本体的概念和关系时,对当前的问题不一定能够做到完全匹配。而自动构建则有基于语言规则的方法和基于机器学习的方法。基于语言的方法,涉及到一些语义的模式。基于统计学的机器学习方法,涉及到数据的聚类,还有一些模式数据的挖掘。

 图谱的自动构建涉及两个核心要素,第一,要有一个领域知识库,第二,对数据和知识库进行匹配时,需要自动纠错、自主学习,因此强化学习和人机交互是关键。

 HAO图谱的核心技术和应用场景

 明略科技的HAO图谱,基于HAO智能框架。其中“HAO”,指代的是Human intelligence,Artificial ﻪintelligence,Organizational ﻪintelligence。目前,以明略科技HAO智能理论框架为基础,形成了从感知到认知,再到决策的三个能力阶段的HAO技术体系,包括HAO感知、HAO数据一体机,HAO交互、HAO图谱、HAO模型、HAO情报、HAO预测,HAO代理、HAO排序等系列基础软件模型、应用工具和解决方案。

 在HAO智能技术环境中,实现从数据图谱到HAO图谱。数据图谱在HAO交互技术环节完成。比如,演讲现场,HAO交互技术可以实时采集发言者的语音数据,然后HAO图谱技术可在后台实时生成图谱,首先把声音翻译成实体和关系,然后再精简、关联。“HAO”图谱是目前第一个从声音直接生成图谱的系统。

 HAO图谱有三项关键技术。第一,句子级的信息抽取,生成名词和名词之间的关系连接以后,要理解中间哪些语义内容是句子级的,再从句子级,生成更高层次的内容分析。

 第二,篇章级的信息抽取。多个句子就形成一个整体描述,整体描述中涉及多个概念、关系,描述一个整体现象,即是篇章级的信息抽取。

 第三,动态和静态的知识表示。从不同的篇章中间做话题演化时,随着社会、经济和当前讨论热点的变化,话题关注点可能发生迁移,因此话题目录要做一些变化,当进行知识图谱构建抽取事件时,要考虑随着时间和空间的变化而变化,进行动态和静态的知识图谱的表示。

 目前,HAO图谱已在公共安全、数字城市、金融、工业、广告营销等多个场景中落地。

 在舆情分析和个性化营销场景中,基于知识图谱,可以把用户产生的评论,与品牌相结合,去看用户的舆情走势,然后将结果整合到BI系统,为运营人员提供用户需求洞察,同时,在此基础之上进行千人千面的个性化广告生成和智能商品推荐。

 在智能导购场景中,在尊重和保护用户隐私和数据安全的前提下,把销售沟通话术,经过语音转成文本,进行话题分类,形成话题转移的知识图谱,计算出话题之间转移的概率,帮助销售人员复盘,分析流单的主要环节,改善话题转移和引导,提高成单率。

 HAO图谱技术模块,依托明略科技新一代人工智能国家开放创新平台,已于2020年7月11日正式对外开放Text2KG ﻪAPI,赋能更多开发者和企业级用户,基于明略科技知识图谱的底层技术,更高效地探索更多行业细分场景。