2月2日,人工智能领域的国际顶会AAAI 2021线上举办。据悉,阿里巴巴共有54篇论文入选大会,成果抢眼,其中多项研究聚焦NLP(自然语言处理),让AI更懂复杂语言。阿里研究人员提升了嵌套命名实体识别的准确度,让AI更懂病历,辅助医生诊疗。另一项关于假新闻的研究,AI能够帮助人们快速识别新冠疫情中的各种谣言。
AAAI 2021是人工智能领域的国际顶级学术会议,历史悠久,由美国美国人工智能协会主办(Association for the Advance of Artificial Intelligence),覆盖了机器学习、视觉、NLP等人工智能多个重点领域。据悉,AAAI 2021于2月2日到2月9日在线上举办,大会一共收到9034篇论文,竞争激烈,其中有效审稿有7911篇,最终录取1692篇,接收率为21.4%。
阿里巴巴这次共有54篇论文入选大会,是全球入选最多的科技公司之一,在人工智能多个领域均有突破,尤其是NLP领域。在论文《Nested Named Entity Recognition with Partially-Observed TreeCRFs》中,阿里研究人员关注NLP领域中的重要研究任务嵌套命名实体识别(Nested Named Entity Recognition,简称Nested NER),提升识别准确率,较原来的业界最佳模型提升0.3%(ACE04数据集)和0.7%(ACE05数据集),不断逼近极限。
据介绍,所谓NER中的“实体”包括人名、地名、机构名等,嵌套是指多个实体叠加组合,像医学名词“肝癌检查”就包括多个实体:“肝癌”是一种癌症,“肝”是一种人体器官,“癌”是一种疾病类型…这种嵌套在医疗文本中广泛存,要让AI读懂病历、辅助医生诊疗,必须解决这一难题。阿里研究人员提出了一种新的建模嵌套实体识别任务的方式,并应用新算法提升计算效率,从而突破原有的技术瓶颈。让AI更懂病历。
除了54篇大会论文之外,阿里还有多篇论文入选AAAI2021的workshop,希望用科技来解决社会问题。在论文《Transformer-based Language Model Fine-tuning Methods for COVID-19 Fake News Detection》中,阿里研究人员关注新冠疫情中广泛传播的谣言和假新闻问题,他们提出了一种新颖的基于transformer编码器的假新闻分类模型,能够精准地捕捉到不同新闻之间的文本信息和语义信息差别,从而判别新闻的真假性。这弥补了通用语言模型在假新闻识别方面的缺陷。
据介绍,以2017年达摩院成立为标志,阿里巴巴在基础科研和创新技术研究上倾注全力,多次包揽国际顶会的收稿冠军和最佳论文。其中,29篇论文入选人工智能顶会SIGIR 2020,全球第一;5篇论文入选网络通信顶会SIGCOMM 2020,刷新中国纪录。