平安科技联邦学习技术团队再创佳绩:5篇论文被国际语音会议INTERSPEECH 2020录用

近日,语音通信领域的国际会议INTERSPEECH 2020发布论文接收结果,与往年相比,今年投稿量激增50%,竞争异常激烈!平安科技联邦学习团队凭借行业技术实力,潜心研究,再创佳绩,成功入选五篇论文,其科研实力受到全球多位专业评委的一致认可,全面展现出平安科技在AI领域的技术底蕴和创新实力。

一年一度的全球语音大会INTERSPEECH 2020是语音科学和技术领域的国际学术会议。会议期间,来自全球学术界和产业界的研究人员汇聚一堂,共同交流、探讨语音领域的新技术,其内容涵盖语音合成、语音识别、语音增强等众多细分领域。会议上展示的研究成果,将代表着语音相关领域的最高研究水平和未来发展趋势。

本次INTERSPEECH2020大会的论文入选门槛较高,竞争异常激烈,而平安科技联邦学习团队仍然在“金融+生态”、“金融+科技”的战略引领下,锐意进取,斩获佳绩,被大会成功收录的论文涵盖科学防疫、语音合成、语音处理、语音理解、声纹识别多个领域,以下为平安科技联邦学习技术团队在INTERSPEECH 2020中入选五篇论文的精彩集锦:

论文1

A Real-time Robot-based Auxiliary System for Risk Evaluation of COVID-19 Infection

《基于机器人新冠肺炎风险评估辅助系统》

关键词:COVID-19;智能防疫;智能新冠肺炎检测

论文链接:https://arxiv.org/abs/2008.07695

  图1 Covid-19智能检测系统流程图

自2020年开始,世界各地相继爆发了新冠肺炎(COVID-19)疫情。然而中国在较短时间内成功的控制了疫情的传播,为新冠肺炎的防控交出了教科书式的答卷,这与我国实行严格的疫情防控工作密不可分。在公共场合,手持式测温枪与红外体温测量仪的使用可以有效监测密集人群中的体温异常情况,第一时间发现疑似患者,减少聚集感染可能性。在防治疫情阶段,有序对不同症状的患者进行区分,并按照病理特征合理分配医疗资源是十分重要的。这种措施一方面减少了人群在医院等高危区域的交叉感染,另一方面避免出现医疗资源的挤兑发生。

为了更好的防治新冠肺炎疫情,平安科技从海量的咳嗽病理数据出发,以自主研发的奥卡姆平台为依托,使用前沿Few-shot Learning以及注意力相似度技术成功研制出通过咳嗽来进行新冠肺炎智能诊断的系统,并将该系统嵌入到平安科技爱德机器人当中。该系统会根据使用者的咳嗽声进行智能诊断,目前支持新冠肺炎,急性支气管炎,慢性咽炎,百日咳,发烧咳嗽等多种疾病的诊断,并且会根据使用者所在GPS定位以及个人情况生成专属的电子病历以及疫情地图。电子病例与疫情地图中包含有数据解读以及防疫建议。

论文2

Prosody Learning Mechanism for Speech Synthesis System Without Text Length Limit

《一种新型的任意长度语音合成系统的韵律学习机制》

关键词:语音合成;韵律建模;自注意力模型

论文链接:https://arxiv.org/abs/2008.05656

最近的神经语音合成系统已经逐渐集中于韵律的控制以提高合成语音的质量,但是它们很少考虑韵律的多变性以及韵律与语义之间的相关性。

  图2 韵律学习机制下的模型训练图

平安科技联邦学习团队提出了一种基于TTS系统的韵律学习机制,该机制从语音频谱特征中提取语音的韵律信息,然后结合韵律信息与音素序列重构原始语音频谱特征。同时,为了改善韵律预测效果,本文通过预训练语言模型(BERT)引入文本的语义特征。

此外,平安科技还提出了一种新颖的局部自注意网络结构(Local Attention),以消除输入文本长度的限制,其中序列的相对位置信息由相对位置矩阵建模,不再需要位置编码。通过对英语和普通话的合成实验表明,所提出的模型获得了更令人满意的韵律的语音。尤其是在普通话合成中,该模型在MOS领先了基准模型0.08,并且合成语音的整体自然性得到了显著改善,并且已经在保险外呼服务的生产效果中得到验证。

论文3

MLNET: An Adaptive Multiple Receptive-field Attention Neural Network for Voice Activity Detection

《一种用于声音信号检测的自适应的注意力神经网络》

  关键词:语音端点检测;自适应;多感受域;注意力网络

  论文链接:https://arxiv.org/abs/2008.05650

  图3 自适应性的多感受野注意力模块

语音端点检测(Voice Activity Detection)是语音处理的一个重要部分。准确高效的语音端点检测不仅可以减少语音信号处理的计算量,提高系统的实时性,而且可以提高语音系统的鲁棒性及后续语音系统的准确性。为了提高语音端点检测的精确度,通常在设计网络的时候会人为的设定固定的上下文信息进行识别或者检测。但在实际应用中,特别是高噪声环境中,固定的上下文信息无法有效应对各种复杂的应用环境。

为了解决现有VAD模型只能利用固定的上下文信息,平安科技设计了一个多感受野注意力网络MLNET自适应地选取最优的上下文信息来用于完成VAD任务。MLNET首先利用门控映射单元将不同感受野的语音特征信息映射为一个相同大小的二维特征,并利用通道注意力机制选择最优的上下文特征信息。接下来,再利用BiLSTM进行特征序列建模,最后使用全连接层网络输出判别结果。基于以上模型设计,本文在aurora4英文数据集和thchs30中文数据集中进行了实验,对比其它baseline模型,MLNET模型取得了较好的实验结果。

论文4

Large-Scale Transfer Learning for Low-resource Spoken Language Understanding

《基于大规模迁移学习的低资源语音理解》

关键字:口语理解;跨语种迁移学习;多任务学习;模型融合;低资源任务

论文链接:https://arxiv.org/abs/2008.05671

端到端口语理解是一项非常复杂且很难达到理想效果的任务,且由于训练数据的限制和模型结构的复杂性很容易导致过拟合问题。为了解决这些问题,平安科技提出了一个基于注意力机制的端到端口语理解模型,并且提出了三种编码器强化策略来减少模型对目标数据的需求且提升模型性能。

  图4 基本注意力机制的

端到端口语理解模型和不同增强的策略结构

第一种策略依赖于迁移学习方法,先用大量的ASR任务数据训练一个较好的Transformer模型,然后用训练好的编码器直接迁移到SLU任务上,用口语理解的数据进行SLU模型的训练。第二种策略依赖于一种多任务结构,在训练过程中,同时训练ASR和SLU任务,ASR任务作为辅助手段以一定的程度来提升SLU模型中编码器的性能。第三种策略是将BERT模型并行融合到解码器结构上,基于此结构训练多任务模型,此方法是通过优化ASR模型性能来间接优化SLU模型性能。另外,为了最大化SLU性能,三种策略不同组合模式也进行了测试验证,最终在FluentAI数据集上的验证表明,跨语种预训练编码器和多任务策略分别取得了4.52%和3.89%的提升。

论文5

Evolutionary Algorithm Enhanced Neural Architecture Search for Text-Independent Speaker Verification

《基于进化算法增强的神经网络搜索算法的文本无关声纹识别》

关键词:声纹验证;神经架构搜索;进化算法;深度神经网络

论文链接:https://arxiv.org/abs/2008.05695

  图5 自主设计的AutoVector模型原型图

声纹验证是一项新兴无接触式身份验证技术,主流的声纹验证模型都是基于神经网络而设计的,但是这些神经网络的设计是通过经验和反复尝试而得到的。为了实现声纹识别模型的自动化设计,平安科技采用了神经架构搜索方法来实现声纹识别模型的全自动化设计。为了进一步提高声纹识别模型的精度,平安科技使用文明进化算法搜索策略找出更出色的声纹识别模型。通过实验证明表明,平安科技提出的方法相对于LSTM-GE2E和X-Vector模型可以降低36%-86%的等错误率。

平安科技联邦学习技术团队,是由平安集团首席科学家肖京博士指导,平安科技副总工程师王健宗博士带领,汇集了来自国内外高等院校毕业的硕博人才。长久以来,平安科技一直在AI新兴技术领域深耕不辍,行稳致远。除在INTERSPEECH 2020中斩获佳绩之外,还在国际声学、语音与信号处理顶会(ICASSP 2020)中表现出色,共计有3篇论文入选会议,分别为《A Bobust Speaker Clustering Method Based on Discrete Tied Variational Autoencoder》、《GraphTTS: graph-to-sequence modelling in neural text-to-speech》和《AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment》。这些与时俱进的研究成果,一个又一个的重大技术创新及突破,无一不代表着国际尖端水平。平安科技作为人工智能领域的前沿探索者,致力于用更先进、更科学的技术推动生态发展,从而为各个领域赋能,创造更大的价值。