大家好,我是表情逼真、口型自然的火山引擎虚拟数字人
我会说中文、英语、日语、法语十多个语种以及粤语、重庆话、四川话等十多种方言。
更重要的一点,现在仅用5-10分钟视频,你就可以拥有一个自己的数字分身,大大降低数字人的制作成本。
如今在金融、汽车、传媒等多个核心领域都活跃着我的身影……
作为该产品的技术支持,火山语音长期积累了成熟的语音交互技术:在语音识别方面,团队通过业内领先的端到端语音识别模型,以及深耕金融、汽车、泛互等行业所积累的数据经验,在数十个领域中与真实场景数据反馈下字准均可达到92% 以上。
此外在领先的端到端语音合成技术加持下,团队的数字人产品不但会说十多种外语及方言,例如英语、日语、粤语、东北话、重庆话等,还具有开心、惊讶、愤怒等丰富的情感演绎能力,并可通过预测来控制重音、停顿,细粒度还原且对象感极强,为用户提供更有温度的服务。“我们通过使用行业领先的非自回归模型的唇形生成网络,合成与输入文本或语音完全匹配的唇形,准确率高达98.55%;基于创新的Motion Graph技术,数字人可以轻松做到毫秒级动作切换延迟且自然无感知。”团队表示。
重要的一点,目前产品已实现快速复刻数字分身,仅需5-10分钟视频,就可1:1还原真人。众所周知,数字分身是一种较低成本定制虚拟数字人的解决方案,再结合声音复刻就可快速实现形象与声音的近乎完美还原,并可落地在内容生产、视频直播、车载环境等诸多场景中。为了能够低成本在本地实现定制,火山语音团队积累了近百小时的多人训练数据用于base模型的训练,使用5-10分钟的小数据量就可在该模型上实现精准的面部运动还原,唇形准确率高达98.6%,整体自然度MOS评测可达3.9。
在火山语音的“AI虚拟员工解决方案”支持下,火山引擎目前已建立了包括2D、3D卡通和3D超写实在内的虚拟数字人产品矩阵。从场景适配出发,包括“播报型数字人”和“交互型数字人”两种类型,专注播报、交互、直播3大核心场景,面向金融、大消费、泛互等行业提供涵盖“金融客服”、“智慧导览”、“智能助理”、“虚拟直播”等场景细分解决方案,为用户带来全新的互动服务和便捷体验。
2022年6月,火山引擎虚拟人数字平台已获得信通院首批数字人系统基础能力认证。近日火山语音首次参与“实时高逼真孪生数字人关键技术研发与应用示范”项目建设,凭借业内优势的AI语音技术以及全栈语音产品解决方案能力,参与到该项目课题三“实时高保真孪生数字人通用开发平台”的建设中,并与江南游戏工作室合作,通过整合交互理解、智能对话管理、智能驱动三大模块,构建支持定制化并适用于多样场景的数字人智能“对话”系统,实现多模态交互对话。