云视频会议的高速发展,使我们可以零距离、随时随地联络到世界上任何一个地点的人。然而视频会议中的语音通话质量极易受到背景噪声、混响等各种因素影响。语音增强技术在实时视频会议系统中起到了关键的作用,但是复杂会议场景下的语音增强仍然有许多挑战问题值得探索。
近日,一年一度的全球顶级语音大会INTERSPEECH 2021宣布启动,并计划于今年8月31日在捷克布尔诺举办。为了提供一个通用的数据集以及公平的测试平台,促进真实视频会议场景中远场多通道语音增强技术的研究,腾讯天籁实验室联合西北工业大学、卡内基梅隆大学(CMU)、约翰霍普金斯大学(JHU)、 丹麦奥尔堡大学(Aalborg Univ.)、希尔贝壳在国际语音顶级会议INTERSPEECH 2021上组织发起针对真实视频会议场景的远场多通道语音增强挑战赛。
远场多通道语音增强挑战赛设置了两个任务赛道,覆盖单个麦克风阵列的多通道语音增强任务和多个分布式麦克风阵列的多通道语音增强任务。赛道一主要针对单个麦克风阵列的多通道语音增强任务,专注于现实视频会议中算法实时处理的需求。赛道二针对多个分布式麦克风阵列的多通道语音增强任务,此挑战任务专注于前沿算法研究,不设置任何算法限制。
目前,大赛报名通道已开启,本次大赛的报名截至时间为3月7日,INTERSPEECH2021 Paper录取结果通知将于6月2日公布,6月5日将公布大赛排名。在参赛规则方面,每个注册成功的参赛团队可选任何一个任务参加,或同时注册两个任务。
此次比赛成绩将通过腾讯在线多媒体主观评估平台,使用Absolute Category Ratings (ACR)来评估Mean Opinion Score (MOS)决定。奖金方面,每个任务排名为前两名的队伍将获得由腾讯天籁实验室提供的奖金,分别为1500 USD和800 USD。
值得一提的是,为了给参赛者提供真实视频会议室的场景,远场多通道语音增强挑战赛数据库采集的数据大部分来自于真人实录,会议中人数以及人与麦克风阵列的距离都会随着会议室的大小而变化,并且多个不同几何拓扑结构的麦克风阵列被分布于每个采集录音的会议室中。
同时,为了使参赛者更关注于算法研究,大赛将提供训练数据的清单,只有清单中的数据可用于大赛两个挑战任务的模型训练。此外,大赛还将提供开发集,生成训练数据的代码和多通道语音增强的基准系统代码,以便于参赛者开发多通道语音增强技术。
一直以来,为了解决实时音视频应用场景下的各种挑战,腾讯天籁实验室围绕着“听得见,听得清,听得真”目标,对核心体验技术和框架进行了深入的探索,并于去年发布了“面向实时音视频应用的新一代实时音频技术品牌”腾讯天籁。该技术方案已在腾讯会议等产品中获得了有效验证,成为腾讯会议高速成长背后的技术密码,助力腾讯会议上线两个月内日活跃用户超过1000万。未来,腾讯天籁实验室将继续钻研音视技术,满足更多行业场景下的实时音视频需求,推进更多更丰富的场景落地而努力。
关注微信公众号“腾讯天籁实验室”报名参赛。