在11月下旬结束的自然语言处理顶级学术会议EMNLP2020上,国际机器翻译大赛(WMT20)公布了赛事最终结果,来自字节跳动火山引擎旗下的火山翻译(Volctrans)在39支参赛队伍中杀出重围,以显著优势在「中文-英语」语向翻译项目上拿下了冠军。
此外,火山翻译团队还拿下了「德语 -英语」和「德语-法语」语向机器翻译项目的冠军,更斩获了平行语料过滤对齐项目普什图语和高棉语的两项第一。
39支队伍角逐国际顶级机器翻译大赛WMT
国际机器翻译大赛(WMT)由国际计算语言学协会 (ACL) 举办,是全球学术界公认的国际顶级机器翻译比赛,也是各大科技公司、顶尖院校与学术机构展示自身机器翻译实力的较量舞台。
自2006年至今,国际机器翻译大赛(WMT)已经成功举办15届,本届比赛共有39支队伍参赛,包括微软、Facebook、Google DeepMind、腾讯、小牛翻译、华为、滴滴等实力雄厚的参赛团队。
组委会根据中英、英中、英德等22个不同翻译任务提供测试数据集,并引入科学的语言专家人工评估流程。每个参赛系统首先由多名经验丰富的语言学家进行评估,然后对最终分数进行标准化加权,最后进行排名。整个评估过程历时四个月,评价结果有非常高的置信度。
语言专家评估得分第一 火山翻译拿下「中文-英语」语向冠军
历年比赛中,「中文-英语」语向的翻译任务都是参赛队伍最多、竞争最为激烈的机器翻译任务之一,今年更胜往年。
火山翻译团队参加了非受限场景的比赛,也就是在给定测试集的情况下,可以使用任何数据和方法探索翻译效果极限的比赛方式,组织方也引入了四个权威的在线机器翻译商业系统(Online-A、G、Z、B)作为对比,这也是最能体现翻译团队数据和算法综合能力的场景。在人工评估中,火山翻译团队(Volctrans) 力压群雄,以明显的优势夺得了冠军。
(图:WMT2020 中英翻译前几名系统得分。Ave.z代表人工评估标准化分数,也是目前机器翻译最受认可的指标。)
相比「中文-英语」,「德语-英语」在 WMT 比赛上是传统项目,也是欧洲国家最关注的语向。在最后的人工评价中,火山翻译依然表现出色,取得了第一名的成绩。国际机器翻译大赛组委会给出了很高的评价,“作为新的参与者,火山翻译表现尤为出色(particularly well),超越了很多传统队伍”。
复旦大学计算机学院教授、EMNLP2021大会程序主席黄萱菁表示:“WMT是非常硬核的比赛,火山翻译取得了出色成绩。火山翻译的LightSeq、mRASP等技术让人眼前一亮,机器翻译有广阔的发展空间,非常期待火山翻译为机器翻译的技术研究和产品应用探索更多可能性。”
领先的背后:火山翻译致力于打造前沿研究、产品研发和用户反馈的闭环
火山翻译(Volctrans)是由字节跳动计算机研究科学家、工程师、产品经理、产品运营和语言专家组成的专业团队研发,其基于自主研发的机器学习技术,积累了百亿多种语言语料,已支持超过50个语种、2500个语对之间的互译,翻译效果和速度业界领先。
(图:火山翻译官网。可以通过 https://translate.volcengine.cn/ 体验火山翻译,并了解更多产品能力。)
目前,火山翻译具备文本翻译、语音翻译、图像翻译、语种识别四种能力,在办公、娱乐、新闻等场景表现优异。
基于这些能力,火山翻译推出了一系列形态多样的产品与服务,包括机器翻译云服务、智能视频翻译、智能同传、翻译浏览器插件等。此外,火山翻译支持API、SDK、私有部署等多种接入方式,且支持垂直领域的快速模型定制,能够满足不同群体和不同行业的翻译需求。
在视频翻译场景,火山翻译提供简单高效的视频“转写-打轴-翻译”全流程服务,轻松听译、智能打轴、高效编辑、专业审校,集四大能力于一身,帮助创作者轻松高效地应对跨语言视频创作。
在语音翻译领域,火山翻译的智能同传技术也表现卓越,能够根据现场发言提供高品质、低延时的实时语音识别字幕结果,同时提供人工字幕保障方案,让会议现场以及直播字幕更精准流畅。
火山翻译的技术来源于字节跳动团队多年机器学习和自然语言处理领域的深耕。团队拥有百余项技术发明专利,在人工智能顶级国际学术会议发表50余篇学术论文。在机器翻译技术上更是独创了mRASP多语言预训练算法,把几十种语言语料融合在一起训练,获得的模型在具体语对上微调取得了44个语对的业界最佳性能,整体效果力压Facebook研发的mBART方法。同时,火山翻译研发的LUT和COSTT语音到文本翻译算法,从语音输入(例如英语)可以直接输出目标语言文字(例如中文),减少了错误累积,在效果上取得了业界领先。
字节跳动杰出科学家、人工智能实验室总监李磊称:“火山翻译核心优势在打造前沿研究、产品研发和用户反馈的闭环,研发团队分布全世界多个国家,工作中也在使用自己打造的产品来跨语言沟通,在迭代中快速进步。”
火山翻译团队还研发了多项机器翻译前沿技术,目前已经集成到火山翻译系列产品中,例如镜像式生成模型MGNMT、CTNMT算法、交互式翻译算法CAMIT、胶囊翻译网络、并行翻译算法PNAT和GLAT等。火山翻译还采用了自研的高性能序列推理引擎LightSeq,推理速度业界最快,比原生系统提高10倍,可以达到每秒两万词的翻译速度。
李磊表示:“火山翻译已经为飞书、今日头条等多款海内外产品提供稳定和高质量的翻译服务,每天处理数亿次翻译请求,为来自全球的过亿用户群体提供优质的翻译体验。未来,火山翻译希望为更多用户提供服务,帮助用户更高效地实现国际信息无障碍交流。”