字节推语音生成模型Seed-TTS 擅长感情控制,声音与真人无异

这篇文章介绍了字节跳动团队提出的新型语音生成模型Seed-TTS,该模型基于自回归Transformer架构,具有极高的语音质量和表现力,难以区分与人类语音的差异。它在情感控制、小说配音和跨语言内容创作等方面表现出色,通过自我蒸馏和强化学习技术提升了发音的自然性和可控性。Seed-TTS在语音合成领域带来了显著进展,为未来的语音合成技术开辟了新的可能性。

【AiBase提要:】

🎯 字节跳动团队推出新型语音生成模型Seed-TTS,能生成自然且表现力丰富的语音。

🎯 情绪控制方面表现出色,能够调整生成语音的情感属性,以及语调和说话风格

🎯 能够模拟复杂的情感和语境,特别适合用于小说朗读、视频配音等场景。

产品地址:https://top.aibase.com/tool/seed-tts

2、Stability AI发布AI音频模型Stable Audio Open

Stable Audio Open是Stability AI推出的开源文本转音频模型,可生成长达47秒的音频样本和音效,适用于音乐制作和声音设计。用户可以创建鼓点、乐器乐段、环境声音等音频元素,支持音频变化和风格转换。模型提供了稳定的音频生成质量和长度,用户可根据自定义音频数据微调模型,提高生成音频的质量和可控性。

image.png

【AiBase提要:】

🔊 Stable Audio Open是开源的文本转音频模型,生成长达47秒的音频样本和音效

🎶 模型支持创建鼓点、乐器乐段、环境声音等音频元素

🔧 用户可根据自定义音频数据微调模型,提高生成音频的质量和可控性

详情链接:https://top.aibase.com/tool/stable-audio-open-1-0