你是否遭遇过这样的时刻,畅享直播赛事却不方便听解说,仅仅看画面又“云里雾里”?
“本想上班路上蹭个球赛却出门急没带耳机,地铁里虽然一直盯着屏幕但好像还是忽略了很多关键细节……”
“深夜看比赛虽然气氛拉满,但要是影响到别人休息就不好了,所以也不敢放肆开声音尽情看……”
你是否旁观过这样一群人,他们“想看比赛却又听不清解说”,原本是一场众乐乐的活动,却最后成为他们自己的“不太快乐”?
“有的时候真的听不清楚解说,所以很长时间就不怎么和家人一起看比赛了,更多是个表面热闹,内心没啥波澜……”
“听不清解说还真有点儿自卑,看画面很多时候也会跟不上,绝对是看了个寂寞,就不想浪费时间了……”
如今变化正在悄悄发生。本次卡塔尔世界杯热播之际,在火山语音以及火山同传的技术支持下,无障碍字幕直播间惊喜上线,让无论是往返于公共交通、不便使用耳机观赛的铁杆球迷,还是不懂球却想看球的体育小白,抑或是因为身体原因听不清解说却有观赛渴望的听障群体,都可通过字幕实时了解世界杯直播并及时获取赛场重要信息,带来较以往不同的观赛体验。
“十几年前就听说春晚要加直播字幕,最后因为种种原因没能如愿。过去一家人在电视前守夜,看到有趣的小品相声都会哈哈大笑,而我只能第二天独自看带字幕的重播,然后一个人傻乐……现在有了无障碍字幕直播间,我终于可以和家人朋友一起感受比赛带来的欢乐了。”阿涛惊喜地说。
突破层层技术关,火山语音让字幕更准更快更好
曾经让阿涛记挂多年的“春晚直播加字幕”,其实背后需要攻克相当复杂的技术难关。
以本次世界杯无障碍字幕直播间为例,世界杯赛场风云变幻,解说的口音和语速更是差异万分,为了让同传字幕不受其影响,火山语音团队基于RNN-T框架,通过大量训练数据的积累和持续的算法优化,推出了自研端到端的流式语音识别系统来解决,不但有效规避了传统的语音识别系统中涉及的大量人工流程,同时还做到了系统复杂度简化很多,构建起来更加容易,效果还会更好。
实践显示,优化后的模型不仅对口音和复杂场景展现出更强的鲁棒性,而且对领域词汇的识别能力以及推理速度,字幕上屏速度也得到了大幅度提升。对此阿涛表示,无障碍字幕功能的声音、画面虽然官方说整体会延迟30s,但实际与直播延迟的时间并不大,观感舒适度大大提高。
长期以来,噪音都是影响语音识别精准度的重要因素之一。“赛场上经常会出现的观众呐喊声,特别容易被误识别为’嗯、啊、哈’的语气词;背景音乐和观众声则会降低解说员声音的清晰度,对识别模型造成了较大挑战。”为应对这类问题,火山语音团队通过从足球比赛音频中提取出这些噪声片段,在模型中显式地建模噪声,将噪声误出字的比例下降了95%;同时通过数据增强方式提高声学模型在足球场景下的鲁棒性,即在有背景音的情况下也能清晰识别人声,实现更好的流式字幕效果。
“在世界杯这样的全球大型赛事中,大量的专业术语以及外籍教练与运动员的人名,会为语音识别带来不小的困难,但也成为提升同传字幕专业度的关键。”通常的做法其实是收集相关场景的语音识别训练集,但收集的过程耗费时间太长且成本较高;而且面对大量文本语料,如何利用这些纯文本来优化领域识别效果,也是个不小的问题。
对此火山语音团队率先整理了大量与足球相关以及与世界杯相关的语料,在这些语料的基础上训练语言模型,通过语言模型干预的方式,提高了模型在足球领域的适配性。由于端到端模型本身也隐含语言模型信息,直接与外部语言模型进行融合往往效果不佳,所以团队根据 RNN-T 的建模方式,通过解耦声学模型和语言模型,显式建模内部语言模型,调整内部语言模型和外部语言模型的权重,以此实现最佳的融合效果。
“对于教练与运动员人名识别难的问题,我们从足球相关语料中自动挖掘专有名词、球队和球员名称等术语,通过在解码备选中引入FST(Finite State Transducer)逻辑结构,结合’匹配走图+Backoff权重偿还’的方式对热词进行干预,有效利用该热词专项技术优化后,这些术语的召回从 64% 提升到 76%。”团队总结道。
经过反复实践与验证,为追求更优效果,团队又进一步对人名热词干预做了扩大FST干预备选以及对热词区分稀疏热词和普通热词,然后对两种热词分别构图,在解码逻辑区别处理的优化,带来人名的召回率从76%提升到84%的效果。此外还联合火山语音音频合成团队的同学,采用TTS技术合成术语音频,并加入声学模型训练中,将这些术语的召回率进一步提高到90%,字幕效果更佳。
一直以来,火山语音团队的语音识别技术都不断追求更快、更准、更稳定且更强悍的目标,不久之前还荣获了国家语音及图像识别产品质量检验检测中心颁发的语音识别增强级检验检测证书,充分表明其语音识别技术能力已达行业领先水平。
就像很多前沿机构预测的一样,可靠快速的语音识别能力或将成为未来每个人日常生活中不可缺少的一部分,技术将索引视频,以及更多类型的媒体内容,甚至成为每一个音频和视频都实现可访问以及可操作的关键,或许无障碍字幕直播间就意味着这种“开始”。
语音识别技术发展已见成熟,交互以及视频领域应用热度高
如何让人与机器顺畅沟通,是人类长期以来不断探索的重要内容之一,而智能语音技术作为让机器能够听懂人类语音并拥有自然交互性的科学,早在上世纪80年代就已闯入人类视野。历经2010年之前的起步期、2011-2015的变革期,以及2016至今的落地期,准确率不断逼近人类水平,以智能语音助手、智能音箱为代表的技术与产品大力发展起来。业界普遍认为,由于语音交互提供了更自然、更便利、更高效的沟通形式,未来很大程度上会成为最主要的人机交互形式而存在。作为智能语音阵营中的关键技术,语音识别技术近年来也是突飞猛进,走出实验室并走进人们的日常生活中,现如今无论是智能家居、智慧出行,视频创作还是智慧办公等场景,它都已不可或缺。
值得提及,在大家习以为常的办公场景中,从早期解放双手呼之欲出的语音输入,到首次与办公场景紧密结合的语音助手,再到发展至今被争相使用的语音字幕,语音识别历经的创新不断。谈及语音字幕,两种类型的具体应用场景其实是普遍存在的:一种是会议进行中将语音实时转为文字,不仅可以实时查看原语言的字幕,也可以实时查看翻译后的字幕;另一种是会议结束之后通过语音转写出会议纪要,以此降低会后文字整理难度。但究其本质,无论是语音输入还是语音助手,抑或是现在流行的语音字幕,归根结底都是以提升办公效率为目标,火山语音团队也正是基于此将更多精力投入办公方向,希望通过更具优势的语音识别技术努力优化“千言转文字,一字胜千言”的效果。
基于此团队上线了实时字幕解决方案,不仅可以帮助参会人更好理解会议内容并回顾结论,还能通过“识别+翻译”的同传方案高效完成跨国、跨语言的沟通和交流。尤其是方案的会议转写能力,不但可以准确记录参会人的讨论内容,还能根据说话人特征进行自动归类和整理,通常1小时的会议只需2-3分钟即可输出会议记录,方便快捷。整体来说,为了更好提升会议的智能化程度以及效率,火山语音团队率先克服语音识别任务、下游任务及会议等方向的挑战,进行了诸多升级与创新。
现如今从“看”到“拍”,短视频已然成为全民时尚,正在当下视听化、碎片化、快节奏的网络时代中快速崛起。据相关数据显示,截止到2022年第二季度数据,我国短视频用户规模达9.62亿人,可见越来越多人已经开始投身到短视频创作中来。对此火山语音团队紧跟时下火热的视频创作风潮,及时推出了智能字幕解决方案,一改传统字幕10分钟视频3小时制作的耗时费力。不仅能在几秒钟内自动生成精准的语音识别结果,还能兼容多种口音、语种和方言,紧跟商用语音识别技术多语音的发展趋势,甚至针对创作常见的配乐和歌曲场景开发了歌曲识别的亮点功能,大大降低了创作门槛,提升了创作的智能化。目前,火山语音的语音识别技术已广泛应用于视频娱乐、办公会议、硬件交互、智能客服等诸多行业,提供了优质有前景的语音识别解决方案。
长期以来,火山语音面向字节跳动各大业务线提供行业优质的 AI 语音技术能力以及全栈语音产品解决方案,并通过火山引擎对外提供服务。目前团队的语音识别和语音合成覆盖了多种语言和方言,涵盖音视频、有声阅读、语音交互、游戏、广告等多种应用场景,为抖音、剪映、飞书、番茄小说、PICO 等核心业务提供了领先的语音能力。可以看出,火山语音团队在智能语音道路上不断探索创新,将前沿科技与业务场景高效结合,以实现更大的用户价值与可能性,不止字幕,也将不止步于字幕。