阿里云PAI将神经机器翻译训练效率提升5倍-DOIT-数据产业媒体与服务平台

近两年，神经机器翻译（NMT: Neural Machine Translation）技术异军突起，翻译质量取得大幅提升。但不幸的是，NMT 系统的训练成本非常高，限制了这一技术的大范围使用。

7月12日，阿里巴巴披露的一份技术资料中显示，阿里翻译团队通过使用阿里云机器学习平台PAI实现了模型训练效率5倍的飞跃，并已应用在英俄电商翻译质量优化项目中。

神经机器翻译是一种用于自动翻译的端到端的学习方法，该方法能够克服传统的基于短语的翻译系统的缺点，可以将整个输入句子视作翻译的基本单元。从2016年以来的学术界顶级会议上，几乎全是围绕NMT相关的创新工作，之后谷歌、微软等巨头公司相继发布NMT系统。

在阿里巴巴内部，阿里翻译负责为1688国际站、全球速卖通等提供多语言服务，中国卖家填写的一些中文信息会被机器自动翻译成多国语言。该团队同时还为钉钉、东南亚电商Lazada等提供服务。

去年，他们首次将NMT技术应用在通讯场景下。虽然翻译质量取得很大的提升，但模型训练耗时太长。3000万的训练数据在单块GPU卡上一般需要训练20天以上，才能得到一个初步可用的模型。

之后，他们尝试在阿里云机器学习平台PAI上开发支持分布式训练的NMT系统，并于3月底完成了第一个版本。在英俄电商翻译质量优化项目中，分布式NMT系统大大提高了训练速度，使模型训练时间从20天缩短到了4天。

图：使用不同卡数时，在中英100万训练语料上获得的收敛加速比

PAI是阿里“NASA”计划发布的首个重磅工具，可完全兼容全球主流的深度学习开源框架。同时，底层提供强大的云端异构计算资源，包含CPU、GPU、FPGA。在GPU方面，可灵活实现多卡调度。

在阿里巴巴内部，PAI已经被广泛使用。淘宝搜索使用PAI的参数服务器，可以把百亿个特征的模型，分散到数十个乃至于上百个参数服务器上，打破规模瓶颈。最终实现搜索结果基于商品和用户的特征进行排序。

现在，阿里翻译团队还在破解线上服务处理延时的难题，为神经网络机器翻译模型的大规模应用扫除最后障碍。

阿里云PAI将神经机器翻译训练效率提升5倍