2021语言与智能技术竞赛开赛 联手大规模中文数据集“千言”

人工智能是让机器像人一样感知和认识世界,而理解和运用自然语言是人工智能的核心问题之一,语言智能的发展将推动人工智能技术加快落地。3月10日,2021语言与智能技术竞赛报名通道将正式开启。该竞赛由中国计算机学会(CCF)和中国中文信息学会(CIPS)联合主办,百度公司、中国计算机学会自然语言处理专委会和中国中文信息学会评测工作委员会承办。比赛将在第六届“语言与智能高峰论坛”上举办技术交流和颁奖,获胜团队将分享总计30万元人民币的奖金。届时,论坛还将邀请国内外学术界、工业界知名专家学者,面向社会公众介绍语言与智能及相关领域的发展趋势和创新成果。

本届竞赛设立了来源于真实应用需求的三大任务:机器阅读理解、多技能对话、多形态信息抽取。这些都是自然语言处理和人工智能领域极具挑战性的重要前沿课题,其研究对于智能搜索、智能推荐、智能交互等人工智能应用具有重要意义。此次竞赛希望为研究者提供学术交流平台,进一步推动语言理解和人工智能领域技术研究和应用的发展。

三大任务升级:联手“千言”,聚焦实际应用、丰富评测维度

本届竞赛基于“千言”数据集举办,“千言”作为中文首个大规模、以开源开放为基础的数据集共建计划,汇集了多个来自学界、业界权威研究团队的多种类、高质量、来源真实应用场景的数据集,目前“千言”第一期已涵盖了7大任务、20余个中文开源数据集。

与往届竞赛任务仅关注单一数据上的效果不同,本届竞赛基于“千言”,每项任务设置了更加丰富的数据集合和评测维度,期望能够从准确性、鲁棒性和泛化性等多个角度对技术效果进行综合评价,从而推动技术更好地适应多领域、多场景的产业应用。

机器阅读理解指让机器阅读文本然后回答和阅读内容相关的问题。自然语言理解对机器学习模型各方面的能力都有极高的要求,当前的机器阅读理解数据集大多都只采用单一的指标来评测模型的好坏,缺乏对模型语言理解能力的细粒度、多维度评测,导致模型的具体缺陷很难被发现和改进。为了解决这个问题,我们建立了细粒度的、多维度的评测数据集,从词汇理解、短语理解、语义角色理解、逻辑推理等多个维度检测模型的不足之处,从而推动阅读理解评测进入“精细化“时代。该数据集中的样本均来自于实际的应用场景,难度大,考察点丰富,覆盖了真实应用中诸多难以解决的问题。

多技能对话指让机器较好融合各个不同的对话技能,同时考察模型在跨技能场景下的通用性。真实世界的人机交互会同时涉及到多种对话技能,如何自然地融合多技能对话是一个重要的挑战。因此本次竞赛集中于多技能对话这一任务,在往年数据集基础上丰富了技能种类,覆盖了知识对话、推荐对话、画像聊天、闲聊等多种技能。该任务下的对话数据覆盖的对话技能多样、领域多样,很多对话交互场景来源于真实的实际应用。

多形态信息抽取指让机器从自然语言文本中抽取实体、关系、事件等多形态知识,旨在使机器具备从海量非结构化文本信息中自动抽取结构化知识的能力。目前大多数相关研究工作仅关注单一类型信息的抽取效果,缺乏在不同类型信息抽取任务上的统一评价。因此本次竞赛设立了多形态抽取信息任务,希望从不同维度对结构化知识抽取效果进行综合评价。竞赛还将对外发布业界最大规模的中文多形态信息抽取数据集,囊括实体、关系、事件等不同形态的结构化知识抽取,同时涵盖句子和篇章两种粒度的自然语言文本。此次竞赛希望通过开放的大规模中文数据集,助力信息抽取技术的进一步发展。

百度飞桨作为中国首个自主研发、功能完备、开源开放的产业级深度学习平台,将为参赛者提供技术支持。本次竞赛三大任务均将提供基于飞桨的基线,助力选手快速上手;基于百度飞桨的人工智能学习与实训社区AI Studio将提供在线编程环境、免费GPU算力及海量开源算法数据支持,用户登录AI Studio并运行Notebook即可获得10小时算力,参加本次竞赛的团队还将额外获得更多的免费GPU算力时长。

除积极举办各类AI竞赛培养AI人才、推动技术创新与应用落地之外,百度以人工智能开源开放平台飞桨为创新基座助力人才培养,已经构建起涵盖学习、实践、比赛、认证、就业在内的全周期服务体系,培养AI人才超100万。未来5年,百度还将培养超过500万人工智能技术与产业人才,为中国智能经济和智能社会的发展提供AI人才保障。

2021语言与智能技术竞赛将于3月10日正式开启报名通道,欢迎进入“2021语言与智能技术竞赛官网”(http://lic2021.ccf.org.cn)了解详情。

诚邀学术界和工业界的研究者和开发者参加本次竞赛!