随着我国“一带一路”重要战略的持续推进,截至2021年1月底,我国已同140个国家和31个国际组织签署了205份共建“一带一路”合作文件,共涉及12语系、28语族,约132种语言。语言多样性所引发的语言障碍,也被认为是阻碍“一带一路”相关国家、地区深入交流的主要挑战之一。
在这一背景下,鹏城实验室牵头发起“一带一路”多语言机器翻译国际大科学计划,与国内网络安全领军企业奇安信集团达成技术合作,采用奇安信数据沙箱技术共同构建 “数据编程接口(DPI)”,基于方滨兴院士“数据不动程序动、数据可用不可见”的理念,在保障语言数据安全前提下,开放数据给百度、科大讯飞、哈工大等国内机器翻译研究团队充分挖掘其价值,从而完美解决了隐私保护和数据挖掘之间的矛盾。
此前,奇安信与鹏城实验室于2020年8月,联合建立了基于数据安全的“AI靶场”,对促进人工智能在数据安全领域中的应用,构建人工智能数据安全治理体系起到了积极的推动作用。针对“一带一路”多语言机器翻译国际大科学计划,鹏城实验室研究团队依托“AI靶场”的数据沙箱技术和“鹏城云脑”大科学装置的强大算力,在数据安全的前提下,对超1.5亿条平行句对和100T单语言数据进行模型训练,并使用多模型集成策略进一步提升了性能。
结合“鹏城云脑”和“AI靶场”共同打造的一带一路AI应用和数据共享平台,其支持的机器翻译模型可实现23种“一带一路”沿线相关语言与中文的互译,在新闻报道等多个领域和多个语种上的翻译性能达到国内领先水平,已经超越许多先进的机器翻译平台。
据介绍,奇安信数据沙箱技术的核心,是通过将调试环境与运行环境隔离构建一个可信计算环境,使得外部程序可以在该平台上进行执行。隐私数据可以以裸数据的形式放在该平台中,由摆渡过来的外部程序利用这些数据来进行模型加工,但数据需求方人员不能进入数据沙箱查看调阅真实的全量数据。
由于数据沙箱将调试环境和运行环境隔离,数据分析师只能在调试环境中使用样本数据调试代码,然后将代码发送到运行环境中运行全量数据,从始至终数据分析师无法接触全量数据,从而达到保护数据隐私的目的。目前,奇安信已经基于该技术推出数据交易沙箱,并广泛应用于政务、医疗等重要行业。
由此可见,方滨兴院士提出的数据安全新理念和数据沙箱技术路线,在鹏城国家实验室一带一路AI应用和数据共享平台中走出实质性的一步。近年来,人工智能和自然语言处理技术的快速发展,不断拉近机器翻译技术与人工翻译水平的差距,机器翻译被看作是突破语言障碍的“金钥匙”。
未来,该平台还将聚集更多的一带一路沿线国家语料数据,吸引更多研究机构和团队充分挖掘数据价值,构建一带一路多语言机器翻译研发和生态拓展,不断优化和提升多语言、特别是资源稀缺语种与中文之间的互译性能,推动提升中文的国际影响力。