构建开放域智能问答系统是人工智能研究领域的一项重要前沿课题。近日,由搜狗搜索联合中国中文信息学会共同举办的“CIPS-SOGOU问答比赛”,正式启动了“非事实类问答子任务”。搜狗搜索将公开百万级真实用户问答数据集,为参赛者提供一展身手的舞台,从而促进学术界及业界交流,提升智能问答领域的研究水平,推动智能问答系统更加广泛地面向公众提供信息服务。
“CIPS-SOGOU问答比赛”,是国内首档基于大规模真实用户问答数据集的问答评测任务。大赛根据问题类型将比赛任务分为“事实类问答子任务”和“非事实类问答子任务”,分别对应事实类问题和非事实类问题。去年9月,该大赛伴随着“事实类问答子任务”的启动已正式开赛。
而于近日启动的“非事实类问答子任务”,无疑又为大赛注入新机,将赛事推向高潮。相较于“事实类问题”,“非事实类问题”包括更广泛的问答内容形式,包括列举(list)、定义(definition)、方式(how)、原因(why)、假设(hypothetical)等等。
根据赛制,基于搜狗搜索提供的问题,以及相对应的若干候选答案篇章,参赛者需设计算法从候选篇章中抽取合适的词语、短语或句子,形成一段正确、完整、简洁的文本,作为预测答案,以正确、完整、简洁地回答该问题,答案文本长度限定在500字内。
针对大赛中的每个问题,参赛者只需提供一个预测答案。“非事实类问答子任务”将针对该预测答案与标准答案计算ROUGE-L和BLEU值,再以测试集上两个指标的平均值作为最终指标。此次比赛将在2018年11月CIPS年会上举行颁奖仪式,授予获胜者奖金和荣誉证书。
(图:CIPS-SOGOU问答比赛任务说明)
值得期待的是,此次“非事实类问答子任务”中,搜狗搜索将公开百万级真实用户问答数据集。包含10万个非事实型问题,代表了最真实广泛的网民信息需求;以及100万个对应问题的候选篇章及答案标注(每个问题对应给出10个候选答案篇章),候选篇章都是从搜索引擎检索真实网页结果中抽取的文本。
实际上,搜狗搜索在此次任务中提供百万级真实用户数据集,除了促使大赛正常开展外,更有意义的是,此举为构建开放域智能问答系统的研究提供了刚需的数据支撑,有助于促进智能问答领域技术的发展和应用,从而推动智能问答系统更加广泛地面向公众提供信息服务,让用户更加便捷地获取信息和知识。
作为国内第二大搜索引擎,搜狗搜索凭借自身数据优势及在人工智能领域研究的持续大力投入,已经在智能问答领域处于领先地位,率先实现了“直接为用户提供答案”。搜狗搜索已上线的“立知”智能问答系统,就是其研发的面向未来的搜索。该系统能够理解用户搜索意图,并直接提供答案。目前,“立知”智能问答系统在事实性问题、分析类问题、观点类问题、数字类问题、隐式问题等方面,都能为用户直接返回精确答案。
现在,作为智能问答领域的带路党,搜狗搜索开放技术能力,向学界及业界提供百万级真实用户问答数据集,助力行业向“非事实性问答”领域研究开拓,促进智能问答领域的学术交流。有兴趣进行技术切磋,提升研究水平的高校师生及业内研究人员,均可通过“搜狗实验室”官网提交报名信息参赛。