华为云发布新冠AI科研知识图谱,为科技抗疫提速

近期,华为云EI医疗智能体(EIHealth)采用自研医学领域AI模型和知识图谱技术,从公开发表的新冠学术文献中快速构建新冠AI科研知识图谱,协助科研人员更快速、有效的开展抗疫科学研究和药物研发。

2020年初爆发的新型冠状病毒(SARS-CoV-2)是一种全新的病毒,由于科学家对它的致病机制和传播机制并不了解,给疾病的防御和治疗带来了巨大的挑战。随着各国研究人员不断的从临床研究、实验室中收集针对SARS-CoV-2的研究数据,短时间内大量的科研成果发表在科研期刊上。迄今为止,在主流的医学预印本文献库中,新冠病毒相关的学术文献已经达到了两千多篇。

为了能够更有效的帮助科研工作者在海量的新冠病毒相关文献中总结、查询、推理有效的知识,华为云使用ModelArts Pro知识图谱套件,从公开发表的新冠学术文献中,自动抽取相应实体和关系,并构建了首个包含药物、疾病、病毒蛋白、人类蛋白等不同类型实体的新冠科研知识图谱。

image.png
image.png

这项工作的一大难点,是如何实现高精度的领域命名实体识别和关系抽取,比如上图中句子里提到的相关病毒蛋白(Virus Protein)、 人类蛋白(HumanProtein)、病毒(Virus)以及从上下文判别出的相互关系。研发团队采用了华为诺亚方舟实验室和华为云最新研究成果医学领域知识监督的预训练语言模型:BERT-MK (BERT-based language model with Medical Knowledge) ,并融合了团队在知识挖掘领域积累的多项深度语义表示和检索技术。值得一提的是,在此前的科学文献挖掘领域相关赛事上,华为云语音语义创新Lab已多次夺冠,包括DigSci 2019和WSDM Cup 2020

image.png

     华为云同时提供了个性化的查询可视化工具,可清晰直接地展现新冠科研知识图谱内的知识点及其关联,并且能够快速溯源知识信息的来源,直接定位相关的文献及知识所在段落。例如:查询药物Lopinavir,可发现Lopinavir对于SARS-CoV-2的Mpro以及HIV protease均有一定的效果。通过进一步探索,可发现Colistin和Nelfinavir对SARS-CoV-2的Mpro也有一定效果。通过查看具体关系,又可进一步获取该关系来源的文献及段落信息等,直接溯源原始信息。该图谱可协助科研人员快速、高效地开展病毒机制研究、病毒蛋白相互作用等科学研究,协助药物研发人员更加精确、有效地开展药物靶点研究、疫苗开发等药物研发工作。

在抗疫期间,华为云和浙江大学陈华钧教授合作,已在OpenKG发布包括新冠病毒分类图谱、抗病毒药物图谱等多种类型的新冠科研知识图谱。同时,华为云EI医疗智能体(EIHealth)和医疗领域的科研工作者共同奋斗在一线,相继推出了一系列的抗病毒基因组服务、医疗影像服务和抗病毒药物筛选服务,全面、立体的助力全球科研人员的研发工作。