月31日上午,科大讯飞和搜狗两家公司几乎在同一时间,都表示自己获得了IWSLT2018国际口语机器翻译评测比赛的第一名。看到这个夺冠“撞车”的消息,让网友们不禁产生了强烈的疑惑:又不是并列第一名(搜狗明确说明了击败讯飞),这一个比赛里为什么会有两个世界冠军呢?
随后,我们通过IWSLT2018大赛官网并对比两家的获奖新闻,终于搞懂了这个“一个冠军,各自表述”的缘由。
讯飞or搜狗,究竟谁是第一?
作为国际上最具影响力的口语机器翻译评测比赛,每年举办一次的IWSLT确实是拥有足够的地位分量,至今已经举办了15届。通过查阅名单可知,IWSLT 2018 有全球很多的机器翻译领域的研究机构参加。
地址链接如下,可自行查看:
https://workshop2018.iwslt.org/downloads/Proceedings_IWSLT_2018.pdf
从介绍来看,本届IWSLT 2018的口语机器翻译任务,是将英语演讲语音翻译成对应的德语文本。需要注意的是,这里所谓的翻译是把语音信号翻译成目标语言文本,并非我们熟悉的文本到文本的翻译。也就是说,这个比赛所要评测的是语音翻译能力,正是之前科大讯飞曾经闹出过“人机耦合”笑话的机器翻译技术。
本届IWSLT2018评测比赛中,搜狗与讯飞是在两个不同的赛道里分别夺冠,一个叫做baseline模型赛道,一个叫做端到端(end-to-end)模型赛道。
两者虽然都是冠军,含金量的差别却很大。
对于普通用户来说,基本可以这么理解:IWSLT这场国际口语机器翻译评测大赛分为大师赛和新秀赛两个赛道。搜狗获得了baseline模型赛道的冠军,这个赛道是目前最主流的赛道,代表着实用语音翻译技术的最高水平,是本次评测的大师赛,目前市面上机器同传、翻译机等语音翻译类产品几乎都采用了类似的方法,讯飞本次也参与了这个赛道,从官方给出的成绩看,讯飞以1.6个BLEU的劣势落后搜狗位居第二位。
另一方面,科大讯飞获得第一名的端到端(end-to-end)赛道属于本次评测新设置的赛道,各方面的技术都处于初级阶段,仍在沉淀和积累中,相当于本次评测的新秀赛,新秀是否能成长为大师,仍有待长时间的检验,还无法代表行业主流水平,搜狗本次并未参加端到端赛道的评测,但其团队在之前多个技术交流中都曾透露过正在研发端到端语音翻译技术,并取得了阶段性突破,由此可推断,搜狗参与本次评测更多是检验自研的实用语音翻译技术在行业的位置。
详解两种模型的技术差异
作为目前最主流的应用技术,baseline模型对应的语音翻译方案,包含语音识别、机器翻译两大模块,采用的是多步走的流水线设计,即语音信号先输入语音识别系统(automatic speech recognition, ASR)得到源语言的识别文本,然后再将识别文本送入机器翻译系统(neural machine translation, NMT)输出目标语言的对应译文。
根据搜狗在知乎上的介绍(https://zhuanlan.zhihu.com/p/45176217),搜狗同传系统就是baseline模型赛道对应的典型方案,整个系统共分为5个技术模块,除了语音识别、机器翻译、语音合成三大技术模块之外,还新增了语音预处理和文本预处理两大模块,确保三项技术能够更好的联合优化,真正实现1 + 1 + 1 > 3的效果。
使用流水线方案的好处是,各大技术模块可以独立优化,充分利用语音识别、机器翻译技术领域内的优化技术以及海量数据,大幅提升单点技术效果,为了更加有效的将ASR和NMT两个系统连接起来,搜狗同传系统主要进行了两方面的工作:
1) 增加了文本预处理模块处理识别文本中的识别错误、口语化表达、语气词、文本不流利、断句等问题,将处理后的文本送到文本翻译模块进行翻译,实现了语音识别和机器翻译的有效结合;
2) 训练出语音识别、机器翻译任务内最优的模型之后,引入联合训练机制,进一步提升语音翻译效果。
罗马不是一天建成的,搜狗在同传、翻译机等产品上对实用语音翻译技术的深耕和积累,在本次评测的成绩上得到了充分展现,官方公布的成绩上,我们看到搜狗以高达28的BLEU位居baseline赛道第一。
PS:BLEU是一种机器翻译自动评价的方法,是衡量方案优劣的重要指标,其数值越大意味着越准确。
官方公布的结果中,讯飞在端到端(end-to-end)赛道获得了冠军。
端到端语音翻译技术,是指绕开语音识别、机器翻译等各模块单独优化的阶段,输入语音经过神经网络变换直接输出目标语言的译文序列,并不会产生源语言的识别中间结果。其目的是将语音翻译系统简化到一个深度神经网络中,减少识别错误等带来的翻译质量下降。
要注意的是,端到端语音翻译方案目前仍然处于早期学术研究阶段,训练方法和神经网络具体结构都不成熟,同时由于(语音-目标语言译文)的数据对难以大规模采集,因此数据和模型优势无法形成有效的协同,效果提升收到很大的阻力。
现阶段,端到端(end-to-end)的方案基本没有办法进行商业使用和普及推广,但已经成为未来可能优化语音翻译效果的方案之一。以科大讯飞这次夺冠的成绩来看,仅仅得到了19.4的BLEU,与baseline模型中的效果相差甚远,基本不具备实际的推广意义和商用价值。更何况,在讯飞夺冠的端到端(end-to-end)赛道之中,一共只有四支队伍而已,像是阿里巴巴和搜狗就压根都没有进行报名参赛。这两个赛道由于训练数据量的差异,各自BLEU值不具有直接的可比性。但是在baseline赛道,相同数据量的情况下,讯飞是实实在在的败给了搜狗。
所以说,如果IWSLT国际口语机器翻译评测大赛算是一场“全明星大赛”,那么baseline模型算是“东西对抗”级别的顶级交锋。而新添加的端到端(end-to-end)项目,也只是一场非主流的新秀表演赛罢了。
由于科大讯飞在自家的获奖宣传中,有意无意的模糊了这一层技术差别。在这里,我们也并不想去论证科大讯飞的行为对错,只是单纯从技术分析的客观角度,给各位读者们分析IWSLT比赛里两个冠军的分量区别,并希望这些中国的AI企业能够凭借自身的科研实力,取得更好的成绩。
总之,从“同传造假门”到“再获世界第一”,希望科大讯飞未来的AI之路能走的踏实些吧。