麦克风会“找”主人,腾讯天籁实验室个性化语音增强技术荣获2022数博会领先科技成果奖

5月26日,以“抢数字新机·享数字价值”为主题的2022中国国际大数据产业博览会(以下简称“数博会”)以云会议形式举办。其中,“数博发布”活动发布了一批全球大数据领先科技成果奖项以及企业成果。腾讯会议旗下天籁实验室首创性研发的“个性化语音增强技术”荣获2022数博会领先科技成果奖!

随着移动办公的普及,视频会议成为了人们日常工作生活中不可或缺的工具。然而,当人们在嘈杂的咖啡厅、机场等开会时,常常受到环境噪声、背景人声的干扰。因此,降噪技术在不同场景下的应用与研究也愈发得到重视,特别是干扰人声的消除,因人声之间的特征相似度高于人声与环境噪声的特征相似度,处理难度更大,也成为了困扰业界和学术界的共同难题。

为此,天籁实验室首创性研发了个性化语音增强技术,率先应用在了腾讯会议上。它能模拟人类听觉注意机制,构建起一个能够在多人会话和复杂的背景噪音中、只关注目标说话人声音的自动化系统,仿佛一个“会找主人的麦克风”,能够在环境噪声消除的基础上,进一步消除周围人声的干扰,凸显主讲人的声音信号。

该项技术,已在ICASSP DNS 2022深度学习降噪挑战赛中,荣获全频带实时个性化语音增强track 2比赛总分第一,并在音质和识别率两个核心单项指标上都分别达到了最好的水平。

图示:任务二:实时个性化语音增强比赛成绩

作为当前国际上该领域规模最大、影响力最广泛的比赛之一,第四届DNS深度学习降噪挑战赛在前几届环境噪声消除基础上,增加了难度更大的干扰人声消除赛道,并首次发起了全频带实时个性化语音增强的挑战赛,天籁实验室则是在众多参赛队伍中脱颖而出,成功获得总分第一名。

作为腾讯会议旗下的顶尖实时音频处理团队,天籁实验室一直致力于打造下一代实时音频通信端到端解决方案,适应不同应用场景和终端设备,为用户提供高清、纯净、流畅的音频通信体验。

此前,基于上千小时的语音噪声数据,该方案通过深度学习和AI算法,已经成功消除300多种环境噪声,并已成功应用在腾讯会议上。为了进一步解决会议室场景下双工通信的挑战,天籁实验室在业界首发推出了腾讯天籁inside音频解决方案,它基于软硬一体的声学硬件设计,独创了行业领先的多麦音频算法,通过麦克风阵列和多模态深度学习技术相融合,首次结合房间声场感知,采集和空间声场重建技术,开创性地实现远距离拾音、智能降噪、通透双讲。该方案已经和newline、MAXHUB、海信商显等多个行业领先的硬件厂商合作,为其打造会议室里的“顺风耳”。

未来,天籁实验室将持续打磨技术、产品,为广大用户提供“听得清、听得真”的音频体验,共创数字时代的美好未来。