华为云TechWave人工智能专题日:知识计算关键技术解读

AI 行业落地一直是业界的一个难题,华为云在探索AI落地之道的过程中发现,各个行业都有各种形态的知识,这些知识存在于不同的媒介,比如各种专业书籍记录的学科行业知识,百科网站上的基本常识等。其中,许多行业知识是行业专家经验的沉淀,甚至是只存在于老专家脑海里的不传之秘。这些知识代表了行业智慧,同时也是实现行业AI落地的关键。

基于在各个行业的成功实践,2020年华为云发布了业界首个全生命周期知识计算解决方案,提供从知识获取、建模、管理到应用的全套决方案,赋能行业用户去构建属于企业自己的知识计算平台。

7月22日,华为云TechWave人工智能专题日举办,华为云自然语言处理专家在会上分享了从知识获取到应用的整个流程中,包含的知识计算几个关键技术:知识获取、知识建模、知识应用。

关键技术一:知识获取

知识计算首先要获取知识,知识获取的一个核心技术是信息抽取。信息抽取涵盖范围广泛,比如实体抽取是从文本中抽取类似人名、地名等实体词或者词组。如果要构建知识图谱,就需要抽取更复杂的由主语、谓词、宾语构成的三元组。比如从《朝花夕拾》是文学家鲁迅的散文集,1928年由北京未名社出版。从这个句子中可以抽取“朝花夕拾”、“出版社”、 “未名社”这个三元组,而每个三元组都代表了一个客观事实,比如这个三元组表达的就是朝花夕拾的出版社是未名社。针对这类三元组的抽取,华为云研发了基于阅读理解框架和级联思想的信息抽取算法,可以用一个框架统一建模实体的抽取和关系的抽取,效果相比传统方法有显著提升。

实际落地过程中,往往还存在标注人力成本高,标注数据不足的情况。针对这种情况,华为云还发展了一系列小样本信息抽取方法,可以有效降低对标注数据的依赖。比如基于meta-learning的三元组抽取方法,在部分场景中,在保证准确率基本持平的情况下,标注数据量可以从两千条左右下降到几十到百条。这样就降低了知识获取的难度,同时也就降低了用户使用的门槛。

除了信息抽取外,知识获取还有一个很重要的步骤是实体链接,因为从文本抽取到的信息往往是有歧义的,需要把信息链接到知识图谱中正确的实体上。比如,李娜在澳洲公开赛打败了齐布尔科娃,这句话中有三个实体,李娜、澳大利亚公开赛、齐布尔科娃,这些实体在知识库都有不止一个候选实体,因为叫李娜这个名字的人很多,到底哪一个才是这个句子里说的李娜呢? 

1626941305158005527.jpg

针对这种短文本中的实体链接问题,华为云首次提出了M3框架,即multi-turn multi-choice MRC framework,即基于多轮多项选择的阅读理解框架。基于该框架,能很好地完成实体链接任务,准确率相对传统方法提升了大约5个百分点。华为云提出的M3框架相关论文,发表在人工智能国际顶级学术会议AAAI 2021上。

关键技术二:知识建模

完成知识获取以后,还需要对知识建模。知识建模中,知识融合/实体融合是一个非常关键的步骤。因为绝大多数的知识图谱都是为特定的目的构造的,这会导致即使是相同的概念,在不同的知识图谱中也会有不同的描述;同时相同的描述也有可能代表不同的概念。比如,在一个图谱中苹果是一种水果,在另外一个图谱中,苹果却是一家公司。针对知识融合问题,华为云研发了多种算法和解决方案,其中包括在多模态知识图谱实体融合方面的原创工作。

针对多模态知识图谱的实体对齐问题,华为云提出了一种多模态知识嵌入方法,生成三种模态知识的表示;然后设计了一种多模态知识融合方法,以融合三种模态的知识表示。最后采用了交互训练的方式,端到端的优化华为云提出的MMEA模型。华为云提出的这个模型也发表在了去年知识工程的国际学术会议KSEM上,并获得唯一的最佳论文奖。

图片2.jpg

在多模态知识嵌入模块中,华为云提取关系、视觉、数值信息,分别对不同模态的知识做嵌入表征,去补充实体的有效特征。

多模态知识融合模块的作用则是集成多模态的知识表示。在多模态知识融合模块里,华为云将多模态知识嵌入从各自分离的空间中迁移到一个统一的空间里。统一空间的学习使得多模态的特征能够互相受益,利用多模态的互补性,提升了实体对齐任务的准确率。

关键技术三:知识应用

完成知识建模以后,可以做多种应用,比如事理图谱。什么是事理图谱呢?知识图谱是以实体为核心的,主要建模的是实体之间的关系,通过三元组来表达一些客观事实。事理图谱则是以事件为核心,主要建模的是事件之间的因果、顺承等关系。

另外一个应用是将知识融入到预训练模型中。预训练模型是近两年最热门的技术之一,比如BERT、GPT3、华为云盘古大模型等。这些预训练模型的一个共同特征是利用大规模的无标注的文本数据,通过自监督的方式训练一个模型,从而使得这些模型里面蕴含了重要的先验信息或者说知识。但是大模型使用的语料都是通用领域的,没有行业属性,模型设计与训练也没有显式融入行业知识。针对这种情况,华为云提出了一个可以融合医疗领域知识的预训练模型,BERT-MK,该模型可以显式地将建模好的医疗行业知识,比如医疗行业的知识图谱,融入到预训练模型中。融入了行业之后,在医疗相关的下游任务上,该模型都表现出了比通用模型更好的效果。

图片3.jpg

有了融入了医疗知识的预训练模型,可以进一步把它应用到医疗领域,比如医疗信息抽取。基于这些融入了医疗行业知识的预训练模型,华为云自研了CHIEF医疗信息抽取框架。基于该框架,华为云从相关医疗文献里面,构建了一个医学领域知识图谱,即从跟新冠肺炎相关文献中构建了一个包含新冠肺炎相关的病毒、蛋白、药物的知识图谱。 

华为云知识计算解决方案从解决企业痛点、提升企业效率、提供知识化服务的角度全面赋能企业,让各行业的企业通过应用知识,释放知识化带来的红利,全面提升企业在智能化时代的竞争力。