从最早的明星定制语音包,到全球首个私人语音定制功能,在语音定制这个领域,百度地图可谓是走在业界前列,这都得益于百度独创的Meitron音色韵律迁移技术。如今,这项技术再度迎来革新,用户只需要录制9句话就可以玩转语音定制,极大降低了语音定制功能的使用门槛,那么百度地图是如何做到的呢?
(百度地图语音定制功能推出9句话录制的“极速模式”)
2019年9月,百度地图推出全球首个地图语音定制产品,用户需要录制20句、每句15个字左右的文本,经过15-20分钟的AI训练,最终实现定制语音包的合成输出。而如今,依托百度独创的时长可控端到端合成技术,升级后的地图语音定制功能对其中的Tacotron模型进行了调整和优化,特别是在Location Sensitive Attention的机制上,使得语音合成过程中时长信息的获取更加灵活、可控,极大提高了训练迁移的稳定性,即便通过极少的语句也能进行稳定的合成,最终实现了从20句到9句的录制缩减。
尽管录制过程做了减法,但百度地图依旧可以生成一如既往的高品质语音合成效果,这背后依赖的,就是百度独创的音色风格细粒度编码器。基于Global Style Tokens技术,此次升级强化了分离音色风格信息的能力,增强了音色风格抽取的一致性,即便只有极少量的语句,也能够完成稳定的音色风格控制和迁移。
目前,百度地图智能语音助手用户量超4亿,个性化语音包每日播放次数超1亿次。随着百度地图语音定制功能的再度升级,相信会有越来越多用户去尝试录制自己专属的语音包,在导航、语音交互、智能旅游等众多地图场景中,体验个人专属语音包的魅力。