火山引擎RTC获得 ICASSP 2023回声消除挑战赛冠军

在刚刚过去的 ICASSP 2023 声学回声消除(AEC)挑战赛中,火山引擎 RTC 团队联合西北工业大学音频语音与语言处理研究实验室,在通用回声消除 (Non-personalized AEC) 与特定说话人回声消除 (Personalized AEC) 两个赛道上荣获冠军,并在双讲回声抑制,双讲近端语音保护、近端单讲背景噪声抑制、综合主观音频质量打分及最终语音识别准确率等多项指标上显著优于其他参赛队伍,达到国际领先水平。

图片1.png

其中“N”代表通用AEC,“Y”代表特定说话人AEC,绿色越深代表指标表现越好

ICASSP AEC 挑战赛由国际音频顶级会议 ICASSP 和微软联合发起,旨在激发声学回声消除领域的研究,自第一届举办以来就吸引了亚马逊、腾讯、阿里巴巴、百度、快手、中科院、西工大等全球诸多知名企业和科研院所的参与。今年的 ICASSP AEC 也不例外,参赛队伍之多之强,使 AEC 成为 ICASSP 2023 各项赛事中竞争最为激烈的赛道之一。

ICASSP AEC 挑战赛要求各参赛队伍对 10,000 多个来自于真实音频设备和真实环境下的录音数据进行 AEC 模型训练,并根据单讲/双讲等场景中获得的主观平均意见分以及语音识别率综合评判名次。火山引擎 RTC 通过对时延补偿模块、线性 AEC模块、残留回声抑制处理模块进行优化,有效降低了 AEC 模型的复杂度,提升了回声的抑制效果。同时,通过对训练数据进行增广,使 AEC 处理框架可以覆盖更多场景的回声处理问题。最终,团队在远端单讲回声抑制、近端单讲信号保护、双讲回声抑制、双讲近端语音保护等各子场景中均发挥出色,取得总分第一的成绩。

图片2.png
AEC 处理框架

另外,今年的 ICASSP AEC 挑战赛首次增加了特定说话人 AEC 赛道。过去,通用回声消除技术(Non-personalized AEC)在线上使用较多,特定说话人回声消除技术(Personalized AEC)则更多出现在学术研究领域。随着回声消除应用的场景越来越广泛、越来越复杂,特定说话人 AEC 也越来越受到人们关注。延续在通用 AEC 领域的技术优势,火山引擎 RTC 在特定说话人 AEC 赛道也荣获冠军。

传统 AEC + 深度学习双管齐下,解决复杂双讲场景中的回声消除难题

回声消除是音视频通话中最难的音频技术之一,而“双讲”则是回声消除应用中最复杂的场景。在视频会议、线上小班课等多人音视频通话场景中,如果近端和远端同时说话,远端的声音信号通过扬声器播放出来,又和近端的声音混合在一起被麦克风采集进去,远端就会听到回声,且听不清近端的语音内容。双讲场景回声消除比普通场景回声消除难度要大——因为既需要把远端的回声尽量消除干净,又不能矫枉过正,保护近端的语音信号尽量不被损伤。

以下是火山引擎 RTC 在双讲场景的回声消除效果。

图片3.png
处理前的声纹
图片4.png
处理后对声纹

在双讲场景中,当回声的能量远远高于目标说话人的能量(比如扬声器离麦克风太近或其他原因),就会形成超低信回比场景(比如-20db以下)。下面这段样本中,女声为目标说话人语音,男生为非目标说话人语音(回声),目标语音几乎被非目标语音完全覆盖了,回声消除挑战极大。

图片5.png
超低信回比双讲场景处理前的声纹

火山引擎 RTC 对 AEC 处理框架中的线性 AEC 模块和残留回声抑制处理模块进行了创新性优化:在线性 AEC 模块中,保护近端语音不受损伤的同时,最大程度抑制回声中的线性成分,减轻后续残留回声抑制模型的负担;在残留回声抑制模块中,基于低延时深度学习网络来抑制回声中非线性残留成分,同时在特定说话人回声消除 Track 上额外引入说话人声纹信息,在去除回声的同时也抑制非目标说话人的语音。通过以上处理,火山引擎 RTC 在超低信回比双讲场景中也取得了优秀的回声消除效果。

图片6.png
超低信回比双讲场景处理后的声纹

为线上各类互动场景提供更清晰、动听的音质体验

视频会议、在线教育、语聊房、游戏开黑、在线 KTV、“一起看”、“一起玩”……线上互动场景正变得越来越丰富,对 RTC 的技术挑战也越来越高,比如更饱满的音质、更清晰的画质、更流畅、稳定的使用体验等等。在音质方面,火山引擎 RTC 基于自研语音编码器 NICO,结合深度学习的 3A 算法、AI 降噪算法、语音检测算法等技术,不断提升音频的编码质量、抗丢包能力和处理性能,已成功为抖音世界杯“边看边聊”直播间、飞书视频会议、《Mobile Legends: Bang Bang(无尽对决)》等提供高质量的音频服务。

图片7.png

未来,火山引擎 RTC 还将不断探索前沿音频技术,并与业务场景高效结合,打造更具针对性的场景适配策略,持续为各类线上互动场景提供更清晰、更动听的音质体验。

点击阅读原文,了解产品更多信息:https://www.volcengine.com/contact/product?t=rtc&source=%E4%BA%A7%E5%93%81%E5%92%A8%E8%AF%A2