最高识别率可达99%!刚刚火山语音ASR技术,实力获得国检中心权威检测

2023年1月9日,由国家工业信息安全发展研究中心举办的以“智融应用 质惠未来”为主题的人工智能高质量融合与安全应用研讨会在京举行。

会上针对技术评测以及标准化工作带来的成果,研究中心公布了一众通过AI国检中心检验检测的优秀行业企业,其中火山引擎语音识别产品榜上有名,获得国家语音及图像识别产品质量检验检测中心(以下简称“AI国检中心”)颁发的语音识别增强级检验检测证书,在语音识别的基本要求以及扩展要求上均已达AI国检中心的最高等级标准。

本次技术评测涵盖中文普通话、方言混合、语种混合识别在低噪和高噪唤醒下的识别效果和准确率等多个角度,经专业评测后最高语音识别字正确率可达99.54%,集中体现了在火山语音支持下的语音识别技术能力和产品方案成熟度获得了业界认可。

作为我国质检系统在人工智能领域的首家、也是唯一的国家级语音及图像产品质量检验检测机构,AI国检中心始终致力于推动智能语音产业的健康发展。本次获得AI国检中心的权威检测,也充分表明了火山语音的语音识别技术能力已达行业领先水平。

长期以来,火山语音(字节跳动 AI Lab Speech & Audio 智能语音与音频团队)将打磨多年的AI语音技术能力以及全栈语音产品解决方案面向市场并通过火山引擎开放给外部企业,目前已经覆盖多种语言和方言,涵盖音视频、有声阅读、语音交互、游戏、广告等众多行业应用场景,为抖音、剪映、飞书、番茄小说、Pico等核心业务提供了领先的AI语音能力应用与拓展。

本次参评的火山引擎语音识别产品为火山语音团队自主研发的端到端流式语音识别系统,主要涵盖语音识别、断点检测、逆文本标准化、智能分句以及标点、口语顺滑等模块,对口音、复杂的声学场景都体现了更强的鲁棒性,对不同领域词汇的识别率以及推理速度、识别结果展示速度等均比其他竞品有大幅提升。

混合模型和端到端模型的对比示意图

众所周知语音识别主要负责将音频转换成文字,为了兼顾效率和成本,火山语音团队率先基于RNN-T框架,通过大量训练数据的积累和持续的算法优化,自研推出的端到端的流式语音识别系统,有效规避传统语音识别系统中涉及的大量人工假设,采用了业界领先的Conformer结构,做到同时对局部信息以及全局信息进行建模,识别效果较传统的CNN、LSTM和DFSMN等结构都有大幅提升。

此外团队又从模型角度优化了Conformer的训练和推理耗时,主要通过下采样和Attention Mask等方式,凭借自研的模型压缩框架,自动对模型进行裁剪和量化,在降低计算复杂度的同时做到效果基本无损;并提出将上下文信息引入语音识别系统中来提升系统的识别效果,更充分的将对话历史信息融入到 RNN-T 模型中,目前该论文已成功入选全球最大的综合性语音信号处理盛会Interspeech2022。

(a)基础 RNN-T 结构 (b)引入对话历史到 predictor 的结构 (c)引入对话历史到 encoder 的

如今在火山语音ASR技术支持下,火山引擎语音识别产品已广泛应用于金融、传媒、互娱、游戏等多类应用场景中,例如在短视频成为全民时尚的今天,为了改变视频内容生产过程中传统添加字幕方式带来的反复听写校对以及逐帧对齐的费时费力,与过程中需要精通多语言并熟悉字幕文件的制作的高门槛要求,火山语音自研推出了智能字幕解决方案。

该方案不仅能够高效识别方言与歌曲,还可以针对语种混合以及说话唱歌混合的场景有不错的识别效果;实践过程中团队通过对用户创作内容的音频特性以及领域分析,凭借算法优化大大提升语音识别对于噪声场景、多人说话等复杂场景的表现。尤其面对移动端用户针对功能响应时间的较高要求,即希望字幕可以既快且准,还做了大量的工程优化和策略,1分钟的视频只需2-3秒即可完成。

智能字幕解决方案的展现

除此之外为应对人们对于音频信息的获取效率远低于文本信息的获取效率的情况,火山语音又强力推出了“千言转文字,一字胜千言”的实时字幕解决方案,通过“语音识别+语音翻译”的AI链路让跨国家、跨语言交流变得更加流畅;凭借自动生成会议记录与纪要,做到大大提升与会者的工作效率,大幅减少会后整理和会中记录的工作量。

值得提及的是,在2022年卡塔尔世界杯期间,火山语音的ASR技术能力还同步支持了上线抖音的“无障碍字幕直播间”,截至12月19日决赛,已有累计超过1905万人在该直播间观看了球赛,累计观看次数超过2624万次。

赛事期间,火山语音团队通过自研推出的端到端的流式语音识别系统,着力解决了世界杯比赛场景中外国球员教练员的人名识别等难题,通过对足球相关领域专有名词、球队和球员名称等术语进行自动化语料挖掘,凭借语言模型干预和自动化热词干预完成专项优化,从而发挥更好的识别效果;还凭借对解说场景的分析以及对现场原声的分析进行模型调优,做到在“解说+现场原声+bgm”的复杂场景下也能准确识别,为观众呈现更佳的字幕效果,带来更好的观赛体验。

无障碍字幕直播间展示

伴随不断的创新发展,火山引擎语音识别产品已广泛应用于视频娱乐、办公会议、硬件交互、智能客服等诸多行业,为用户提供了优质且有前景的语音识别解决方案。可以想见,未来在火山语音不断探索前沿科技与业务场景的高效结合的基础上,持续为用户体验和业务增长注入创新势能以实现更大价值乃是大势所趋。返回