超写实数字人小灿加入,助力火山语音全类型虚拟数字人应用创新

当发现更多AI科技作用于日常生活时,你是否想过竟然有一天会与AI数字人做同事?日前,火山语音团队重磅推出了一位神秘新成员——首个超写实数字员工小灿!这位新同事不仅形象清新美丽,还有着很强的亲和力,大幅提升了工作幸福感,真可谓让大家率先体验到了拥有一位超写实数字人同事的快乐。

在首爆TVC短片中,作为一位刚参加实习的虚拟数字员工,小灿对于新工作的忐忑、对于未来的憧憬,如同每一个初入职场的新人一样真实;她在新环境中的紧张、对于实习生活的期待、与同事们的自然互动……这些都让我们看到了虚拟数字人丰富的情感世界,仿佛她就在眼前。

当然,除了小灿的个性以及情感的灵动展示之外,深扒其背后的技术实力更是可圈可点。小灿的出现,无疑为火山语音在虚拟数字人领域的未来开启了新篇章。

聚焦面部、肢体以及音色等多方向   技术创新助力逼真呈现

长期以来,火山语音团队致力构建全面逼真、快速响应、可多场景应用的超写实数字人。在创作首个数字员工小灿的过程中,团队主要在面部驱动、肢体驱动以及“一条音频秒级别音色复刻”等技术层面实现了创新突破,共同助力数字人的逼真呈现。

具体来说,面部驱动主要采用了表情、唇形联合建模的方案,为了实现更细粒度的唇形控制,团队采用了国际音标 IPA 作为建模单元,基于数小时的训练数据实现高精度的唇形、表情生成,并且基于 IPA 可以在不新增训练数据的情况下很容易地进行多语种、多方言的扩展。

另外关于肢体的AI驱动,团队也研发了以下三种方案:

(a)Motion Blending 动作库拼接

Motion Blending 动作库拼接方案,可以应用于视频创作、直播等通用场景,能保证动作生成的质量与效率。其中 In-Between 模块采用基于 Trasnformer 的 Encoder + Decoder 结构,将待过渡的两段动作进行编码,Decoder 则根据 Position Encoding 作为 Query 查询;为保证稳定,预测目标是与原始两片段 Slerp 插值结果的偏差。内部评测结果表明,这种方案生成的效果大幅优于 UE 原生的动作库拼接方案。此外,为了解决音频时序对齐的问题,需要对动作库中选取的动作进行截取,为尽可能减少对高质量动作库的破坏,方案根据待过渡动作的姿态和运动等信息估计出最优插值长度,进一步提高了生成的动作效果。

(b) 端到端

针对直播等交互场景,团队录制了数小时的动作数据,训练基于 Diffusion (X start) 的端到端 Audio2Gesture 模型,Denoise 模块考虑了音频的低/中/高级特征并具有长时依赖信息,确保了生成的动作与输入音频节奏和语义的相关性。

(c)端到端 + 指定动作

考虑到实际应用时,某些场景可能需要一些指定动作,例如打招呼、比心等强语义动作,团队开发了基于 Inpainting 方式的动作生成算法,确保指定动作的触发;而在大部分没有指定动作的片段,则按照端到端动作生成的方式生成语义和节奏匹配的动作,并且结合 Diffusion 模型渐进生成的特性使动作过渡灵活自然。

谈及“一条音频秒级别音色复刻”技术,也被称为zero shot TTS。这项技术能够在短短几秒钟内高度还原真人的音色、说话风格以及声学环境等特性,种种均建立在火山语音团队全自主研发的核心技术架构上,使得其关键性能指标在业界占优。此外,团队还开发了基于自回归GPT类大模型的韵律模块,目前这个模块的训练数据已经超过了20万个小时,而且其架构具有很强的可扩展性,预计未来能够支持100万小时以上的数据训练。更重要的一点,这个模块支持code-switch功能,意味着无论输入的提示是中文还是英文,都可以直接输出中文、英文或者混合内容。这一功能的实现,无疑大幅提升了超写实数字人小灿的应用范围以及实用性。

构建全类型虚拟数字人矩阵   辐射多场景应用

目前火山语音的数字人产品已具备包括2D真人、3D卡通和3D超写实在内的全类型虚拟数字人生产管线。聚焦播报、交互、直播三大核心场景,专注构建AI数字人从原子层到方案层产品能力。基于全自研多模态交互技术体系,建立从形象、感知、理解、对话能力都趋近于真人的数字人,面向行业客户持续提供行业领先的一站式数字人解决方案。

具体来说播报场景,火山语音数字人为泰康保险等客户提供一站式数字人音视频生产平台,帮助企业提升内容生产效率,打通自动化、高效的数字人视频生产链路,同时支持词条精修、文本/音频驱动、多轨混编、画中画等多项高级功能,助力打造更具差异化、更精品化的内容生态。

交互场景,火山语音数字人为兴业证券等客户提供“面对面”交互服务体验升级,搭载全自研语音交互技术,结合大模型精准理解用户意图、合理应答,满足智能客服、智能开户、金融资讯播报、短视频创作、市场推广等多场景的数字营销需求,助力企业“数智化”转型。

直播场景,火山语音数字人为国信证券等客户打造“ 全天候数字人直播间”方案,量身定制品牌数字人形象。其中数字人直播平台满足0直播间布景费用投入、积木式构建剧本内容、AI智能剧本生成并提供一键推流功能,实现在火山引擎企业直播、抖音、淘宝、京东等多个平台开播。

一直以来,火山语音团队积极将经过多年精心打磨的语音技术能力面向市场开放,通过火山引擎成功地将这些技术应用到了汽车、金融、有声阅读、视频配音等多个行业领域并覆盖了广泛的应用场景,帮助众多行业领头企业实现了AI语音能力的应用与拓展,但团队目标并不止步于此。未还来将继续探索前沿科技与业务场景的高效结合,以期为用户体验和业务增长注入更多的创新动力,并通过不断的创新与探索为人们的生活带来更多便利与乐趣。