“喂喂,大家能听得清我说话吗,我这边有点吵“。在视频会议、语聊房、游戏语音等众多场景中,相信很多人都有过类似的经历,尤其在疫情发生后,在线办公变的越来越普遍,但复杂的办公场景却常常伴随吵闹的环境噪声影响视频会议的效果,例如同事们的键盘敲击声、家里宠物的吵闹声、孩子的哭闹声、家人的剁菜声等,都会通过视频会议传送到各个参会者的耳中,让会议过程非常糟心。
面对这些实时互动场景里的环境噪声,到底该怎么处理?声网音频技术团队自研了基于海量数据训练的 AI 降噪算法,可以有效抑制在音视频通话过程中的上百种背景噪声,并保证语音无损伤,最终有效提升在多种复杂场景下的实时互动体验,让通话体验更佳。
可以通过下方的两组场景海报更直观的了解声网 AI 降噪在实时互动场景的应用。
声网 AI 降噪:兼顾强降噪与高保真,实现远场去混响
相比于传统的一些降噪算法,声网 AI 降噪的效果有巨大提升,可以一次性解决上百种突发性噪声,比如在会议场景可能经常会遇到敲键盘,装修、背景讨论等噪声;居家办公可能会遇到小孩哭叫、厨房做饭等噪声,这些噪声通通可以抑制干净。
声网 AI 降噪在强降噪的同时还能兼顾高保真,即使在多人同时说话的场景下,做到在抑制噪声的同时不对说话人语音产生损伤,使每个人的声音都听得清晰。还实现了在不增加额外运算量的前提下,对远场语音具有明显的混响抑制能力,如果你在一个房间里面离麦克风比较远,这时候对方听你的声音是模糊的,使用了声网的 AI 降噪算法,可以使对端也能清晰地听到你的声音。
此外,声网自研的 AI 推理引擎还可以使得 AI 降噪算法在 Android、iOS、Mac、Windows、Web 等主流平台以低精度损伤、高性能、低功耗方式运行,使用户的设备不卡不烫。
通过声网 AI 降噪音频Demo 可更直观的体验声网 AI 降噪带来的远场去混响和噪声抑制能力,Demo中依次展示敲击键盘音、办公室噪声等典型非稳态噪声以及室内去混响的效果,因为这是AI降噪相对于传统降噪所具有的核心价值;
行业同类降噪算法对比:声网 AI 降噪更优概率超过47%
在声网推出 AI降噪前,行业已存在一些降噪算法,但大多数传统的语音降噪算法是基于严密的数学推导而来的,其中存在一些严格的假设条件,实际上很多时候这些假设条件并不都是成立的。例如传统降噪算法在处理稳态噪声(噪声功率起伏比较平缓)这类符合假设条件的情况效果较好,在处理非稳态噪声这类不符合假设条件的情况,降噪效果会有明显回退。而随着深度学习的发展,当前基于数据驱动的 AI 语音降噪算法发展迅猛,它们相较于传统的语音降噪算法的一大优势是不依赖于任何假设条件,处理非稳态噪声效果显著。
此外,随着算力持续增长,基于大数据训练的 AI 语音降噪算法具有强大的拟合能力和鲁棒性(系统性能的健壮性),使实时 AI 语音降噪算法商业化落地成为可能。
于是,声网的 AI 降噪算法融合了传统语音降噪算法与AI语音降噪算法的各自优势,通过采用兼顾强降噪和高保真的损失函数、自研的 AI 推理引擎等一系列技术手段,同时实现了优秀的噪声抑制和远场去混响功能,可以很好的应用在视频会议、语聊房、远程问诊等实时互动场景中。
此外,为了更清晰的了解声网 AI 降噪在用户端的体验评价,声网还选取了一些行业同类的降噪算法进行效果对比,在由真实数据组成的大规模测试集上,和行业标杆国际友商 A 和友商 B 对比,声网均取得了最高的 MOS 分数(平均主观意见分)。参与测试的人员,在体验后给出的推荐评分中,声网明显占优;声网优于友商 A 和友商 B 的概率分别是 47.4067% 和 48.1341%,声网输给友商 A 和友商 B 的概率分别是 31.4674% 和 30.7717%,声网和友商 A 和友商 B 打平的概率分别是 21.1259% 和 21.0942%。
目前声网 WebSDK AI 降噪插件和 Native SDK AI 降噪动态库已跟多个客户进行了集成,得到了客户的高度认可;声网也将持续提升 AI 降噪算法的性能,目前基于最新 AI 降噪算法的 AI 降噪插件可以与 Web SDK v4.10.0 及以上配合使用,同时也推出了基于最新 AI 降噪算法的 AI 降噪动态库可以与 Native SDK v3.7.0 及以上配合使用。