“哪吒音色”闪亮登场!火山语音TTS为此可是忙坏了

现如今汽车不仅仅定位为交通工具,更是空间拓展、人性陪伴的承载。日前,哪吒新车隆重发布,除了各色亮眼的功能创新之外,其与火山引擎联手打造的一款活力动感、富有“人情味儿”的车载语音助手音色引起广泛关注。

听起来究竟如何?Pick下方视频链接,一起进入“哪吒音色”带来的快乐旅途吧!

//tosv.byted.org/obj/speech-tts-external/nezha1219.mp4

量声定制高度还原:从声音开始了解TA

怎么样?还可以吧?那么作为火山引擎语音合成产品的技术支持者,火山语音是如何帮助哪吒这样的汽车企业打造如此个性又生动自然的音色的?

一直以来,“声音”不仅被作为大脑中最基础的记忆类型,更能直接影响人的情绪与感受,所以对于车载语音助手而言,声音尤为重要。一款融合了企业品牌特性的高品质音色,不仅能为用户提供更加愉悦的听觉体验,也能在一定程度上加强对企业品牌的输出与认知。当然,打造高品质专属企业音色并非易事,需要做到“高度还原发音人声音特征”以及“将企业品牌特征抽象为声音能表达的风格”两个方面

“高度还原是个技术活儿,不容易。在‘哪吒音色’的打造中,我们团队使用了领先的多情感并行神经网络声学模型以及生成对抗神经网络声码器来完成这一突破。其中,多情感并行神经网络声学模型,能够通过半监督情感模块和并行的编码器、解码器来理解、运用全局的文本、语音和其他表征信息进行声音重建,从而高度还原发音人的音色、风格乃至说话习惯。”火山语音研究员总结到。

此外“生成对抗神经网络声码器”的使用,除了将频谱转化为音频外,还可以通过对抗网络对合成音频进行监督强化,确保生成的音频具备高质量音质以及极佳的稳定性,高度还原发音人声音特征,做到真假难辨。

图1 – 多情感语音合成框架

与此同时,火山语音团队具有专业的配音导演和语音语言学专家,可以提供定向的演绎风格指导和品牌理念分析服务,协助企业抽象出贴合品牌形象的声音风格,并帮助其找到与之匹配的发音人老师。

以声传情:让交互有温度更自然

传统的车机语音助手通常风格严肃平淡,缺乏生动的情感表现力,但情感的生动表达往往能让交互更具人情味儿,从而避免驾驶中的听觉疲劳。对此,为了让“哪吒音色”具备多情感的表现能力,火山语音团队采用了半监督情感模块仅凭借1小时的情感数据作为参考,智能分析出其余全量录制语句的情感类型和情感强度,进而让所有录制数据都参与合成语音情感能力的建模,实现更显著、更自然和更细腻的情感表现力。此外该模型还具备情感强度平滑控制的能力,能够覆盖多种不同的场景需要。

为了让情感更适用于车载场景,火山语音团队深入分析场景所需的情感类型,成功打造出适配该场景语音交互的四大情感类型:

  • 冷静: 耐心平和,可适配车载全部场景的通用情感
  • 高兴: 带有笑意,让人心情愉悦,娱乐休闲时为车主带来更多欢乐
  • 失落:失落抱歉,真诚真挚,当无法完成车主要求时自然的歉意表达
  • 娇蛮:娇蛮可爱,又不过分严肃,可在车主违规超速时提醒

博学多才:多领域发音准确率超99%

车载助手通常覆盖导航、天气、资讯、车控、百科等诸多领域。驾驶员在行驶过程中,语音播报的内容被认为是主要的信息获取来源,发音错误会直接影响到信息的传递和用户的使用体验,因此对合成语音的准确性提出了较高要求。对此火山语音针对汽车领域进行了深度优化前端发音准确率可达99.33%,这一切都归功于团队自研的文本分析模型。

该模型能够同时对句级别文本进行注音、分词和韵律预测,为合成音频的发音准确、韵律节奏自然有表现力提供了重要支撑;同时对于车机场景存在的但文本分析模型尚无法准确处理的专业名词,还提供了高效的热修复机制,能够在分钟级内修复此类问题

同时,火山语音研究员介绍:“在解码器中,我们引入了使用大量语音数据训练的无监督表征。这种无监督表征有助于语音时频信息的进一步抽象,能够有效抽取语音中的关键信息,将其作为中间层的预测目标,极大降低了声学模型的训练难度。在有限的数据量下,模型具备极高的发音稳定性和优异的声音表现力。受益于这种方案,哪吒不仅普通话专业流利,英文也能自如展现。”

图2 – 解码器模型结构

音人而异,打造多样化个性之声

长期以来,火山语音在特色音色、方言以及多语种音色上有着深厚积累,可对外提供60+高质量音色,包括:

  • 萌娃、小萝莉、动漫小新、译制片男声等趣味音色,可为车主提供个性化音色体验;
  • 河南话、广东话、川渝话、东北话等多种方言能力满足企业不同地域的需求;
  • 英语、日语、韩语、欧洲、东南亚等多国家及地区语种能力为企业出海赋能

体验更多音色效果:
https://www.volcengine.com/product/tts

稳定流畅 :不同网络环境轻松应对

在正常的行驶过程中,网络环境不稳定的情况在所难免,如隧道或者地下停车场。火山语音团队为此提供了“在线+离线一体解决方案”,可实现:

  • 网络状态波动时,可自适应离在线切换,有效避免无网、弱网时的延迟与卡顿,为用户提供尽在掌握的驾驶体验;
  • 在线音色和离线音色高度一致,音色切换自然流畅,避免了音色不一致导致听感违和问题。

目前,火山语音,字节跳动 AI Lab Speech & Audio 智能语音与音频团队,将打磨多年的语音技术能力面向市场并通过火山引擎开放给外部企业,已覆盖汽车、金融、有声阅读、视频配音等众多应用场景,并助力多家行业头部企业实现AI 语音能力的应用与拓展。此外多篇论文入选各类AI 顶级会议,技术能力已成功应用到抖音、剪映、番茄小说等多款产品上,未来火山语音还将不断探索前沿科技与业务场景的高效结合,持续为用户体验和业务增长注入创新势能,以实现更大价值。

联系我们:
https://www.volcengine.com/contact/product?t=%E7%B2%BE%E5%93%81%E9%9F%B3%E8%89%B2%E5%AE%9A%E5%88%B6