腾讯天衍实验室斩获CCKS2020试验装备NER任务冠军

聚焦CCKS2020 腾讯天衍实验室致力于大数据推动医疗应用

科技是提升医疗服务能力的有效手段,许多知名机构和科研工作者们长期致力于技术研究,并展现出应有的实力。近日,第十四届全国知识图谱与语义计算大会(CCKS2020)举办的知识图谱与语义计算技术评测竞赛结果公布,腾讯天衍实验室从213支参赛队伍中脱颖而出,斩获试验装备鉴定领域实体抽取(NER)任务冠军,体现了在实体抽取和知识图谱领域的技术实力。

  (图:CCKS 2020大会官网)

针对性数据与模型设计 夺得NER任务冠军

第十四届全国知识图谱与语义计算大会由中国中文信息学会语言与知识计算专业委员会主办,已经成为国内知识图谱、语义技术、链接数据等领域的核心学术会议,聚集了自然语言理解、知识获取、智能问答、图数据库等相关技术领域的研究人员和学者。CCKS技术评测则旨在为研究人员提供测试知识图谱与语义计算技术、算法、及系统的平台和资源,促进国内知识图谱领域的技术发展。针对此次大会,CCKS 2020技术评测共设立8个相关主题评测任务,包含新冠知识图谱构建与问答、面向中文电子病历的医疗实体及事件抽取,面向试验鉴定的命名实体识别等,吸引了众多知名企业和高校的踊跃参与。在面向试验鉴定的命名实体识别的主题评测任务中,腾讯天衍实验室夺得冠军。

  (图:面向试验鉴定的命名实体识别评测获奖名次)

何为命名实体识别?简言之,如何从海量的文本或网页的原始数据中提取有价值的信息是行业知识图谱构建的关键因素,信息抽取(Information Extraction,IE)作为自然语言处理技术的任务,重点在于从机器可读取的非结构化或半结构化的文本中抽取信息,而命名实体识别(NER)则是IE任务的核心和基础技术,旨在从文本中查找每个提及的命名实体并标记其类型。相比于通用领域NER任务,此次竞赛任务由于试验目的不同、被试对象有着自身较为特殊的语言形式,对NER任务带来了全新的挑战:一方面,试验鉴定领域的可用标注语料稀少,训练集只有400条;另一方面,实体类别间语义复杂度较高,需要依赖专业领域知识和准确的上下文理解。

针对此次实体识别任务,腾讯天衍实验室全面识别任务特点,从数据和模型层面进行针对性的设计。首先,针对训练数据样本较少且样本序列长度较长的问题设计了一种基于动态规划的文本分割方法,将较长样本分割为多个样本,同时在切割时使得保留最多原始文本信息的前提下冗余数据最少。其次,在模型层面上,基于样本上下文依赖较强且位置关系明显的特点,在输入层把领域分词信息融合到模型中,并且针对性的选取TENER、RTransfomer作为编码器;编码器的输出结合CRF做实体的序列标注,针对模型输出的结果进行融合和词典矫正,最终结果为F值0.72128,夺得该赛道冠军。

持续创新输出技术实力 加速医疗科研领域落地应用

获此成绩非一朝一夕,在此之前,腾讯天衍实验室就在日常的业务中把实验室长期积累的相关技术落地到医疗领域的多个场景中,并且在实践应用中进一步夯实技术实力。

比如疫情期间,腾讯天衍实验室基于腾讯健康小程序推出的患者同小区查询助手极大的方便了用户查询同小区患者信息,疫情智能问答助手则可以7*24小时解答用户关于疫情的相关问题助力公众科学防疫抗疫,累积服务用户2000万查询人次。两个智能助手应用到的核心技术之一就是NER技术,通过NER技术从无结构化文本中抽取相关实体并结合关系分类快速构建精准图谱,从而支撑上层各项智能化应用。

具体来说,患者同小区查询助手,主要利用NER技术从官方公布的患者信息文件中抽取出关键实体并构建患者画像图谱,从而实现患者同小区智能查询的各项功能。对于疫情问答工具,则主要基于卫健委、医院等公布的文档,利用NER技术从中抽取治疗、诊断、药物、地区等相关实体,基于这些实体快速构建新冠肺炎相关的知识图谱,利用知识图谱支撑用户问答服务,从而提高问答的准确性和智能性。

  NER为核心技术的疫情工具图谱构建流程

腾讯天衍实验室致力于长期在自然语言基础能力、语言理解、信息抽取、知识图谱构建等进行研究创新,并将成果运用到落地的医疗自然语言等场景,目前已构建医疗行业大规模知识图谱,支持了数百家医院的辅诊、导诊、疾病辅助诊断、智能用药等产品,助力医保、医院、疾控中心和其他医疗机构的智能化知识挖掘和管理难题,实现知识化转型。

在医疗健康领域,腾讯天衍实验室专注于AI算法研究及落地,旨在依托NLP、知识图谱、大数据、医疗影像等技术系统,将算法能力输出到腾讯健康小程序、QQ浏览器、微信搜一搜等终端应用。与此同时,腾讯天衍实验室还与钟南山院士以及复旦肿瘤医院等头部医院建立联合实验室,与牛津大学、蒙特利尔大学、天津大学、微众银行AI部门等单位建立长期科研合作关系,目前已发表包括NIPS、KDD等多篇顶级学术论文,通过联合社会各界进行技术深入研究,腾讯天衍实验室将进一步加速科研应用落地,以服务于临床应用。