Deep Voice:基于神经网络的生产型实时文语转换系统

百度研究院近日展示了一项名为Deep Voice的研究成果,这是一套完全由深度神经网络构建的生产质量级文语转换系统。迄今为止,构建此类系统的最大障碍是语音合成速度,以前花费几分钟或几小时才能产生仅几秒钟的语音。现在,这项挑战已被攻克,证明了实时语音合成的成功,相比之前WaveNet推论与实施,该系统的加速能力高达400倍。

timg

从文本合成为人工语音,通常称为“文语转换”(简称TTS),这是许多应用程序中的必要组件,例如在具有语音功能的设备、导航系统和视觉障碍者的可访问性上。基本上,文语转换允许人工技术交互,而不需要可视化界面。

现代TTS系统以复杂的多阶段处理途径为基础,其中每一个环节都可以依赖于手工工程的特点和启发法。由于过程复杂,开发新TTS系统的工作可能是劳动密集型的,也是困难的。

Deep Voice的灵感来自于传统的文语转换途径,采用相同的结构,基于神经网络并根据更为简单的特征来替换所有组件。这使我们的系统更容易适用于新的数据集、语音和区域,而无需任何手动数据注释或附加功能工程。

Deep Voice为真正的端到端语音合成奠定了基础,没有复杂的处理流程,也不依赖于手工设计的输入或预训练功能。

当前的处理途径还不是端到端的,包括音素模型和音频合成组件之内。机器语音合成源于处理途径的结构和音素模型,语音合成组件单独生成为更加自然的剪辑。其声音样本听起来非常接近原始语音,表明语音合成组件可以非常有效地再现人类的声音。

当今,深度学习改变了诸多领域的发展,如计算机视觉技术和语音识别,而文语转换当前正处于一个类似的转折点。