机器学习怎样提供翻译服务
扫描二维码
随时随地手机看文章
由于缺少从一种语言到另一种语言的很多翻译示例——例如从英语到乌尔都语(Urdu),Facebook(脸书)公司已经开始使用无监督的机器学习来翻译其平台上的内容。
Facebook人工智能研究院(Facebook AI Research,FAIR)巴黎实验室的主任Antoine Bordes表示:该方法由FAIR设计,并由FAIR和Facebook的应用机器学习部门合作用于其平台。在实验中,该方法的表现与经过10万次翻译训练的有监督模型相当,并且在翻译示例很少的情况下,其表现优于Facebook的语言匹配系统。Bordes说:“当你处理像英语到乌尔都语这样的案例很少的翻译任务时,我们系统的表现超过了有监督的系统。因此,在没有足够数据的时候,训练无监督系统比有监督系统更好。”
由Facebook人工智能研究人员Guillaume Lample和Marc‘Aurelio Ranzato领导的这项工作的成果将于今年秋季在EMNLP 2018上公布。作为FAIR的一名老员工,Bordes表示这项研究是他见过的最好的翻译系统。Bordes说:“我们现在可以去一个使用未知语言的星球—或者说,跟外星人交谈—你可以尝试对他们所说的内容进行合理的翻译。你也可以从一本古老的手稿上找到尚未破译的语言,你可以真正了解它的含义,因此这项工作真的在这些方面取得了突破,而这就是我如此兴奋的原因。”
与FAIR的其他项目一样,该AI系统将是开源的,可以在GitHub上下载。今年早些时候,Facebook将Translate做了开源,这是目前Facebook用来辅助翻译的人工智能系统。Translate等系统需要大量的标记数据。例如,完成从法语到英语的翻译需要数百万个样本句子来创建一个能够理解这两种语言的系统。因此,在缺少翻译示例时,翻译工作是非常困难的。
当前用于处理这种案例的人工智能系统结合了三个要素:逐字翻译、语言模型和反向翻译。逐字翻译的训练原理为:根据一个句子中某个字的前面五个单词和后面五个单词来推测其上下文含义,然后对该单词进行预测。这个嵌入词语的方法是在2017年秋天Lample和Ranzato共同撰写的一篇论文中提出的。然后,使用大量数据(如书籍或其他书面文本)训练的语言模型被用于按照英语或乌尔都语使用者能够理解的结构来安排句子。最后,使用反向翻译来改进通过逐字翻译和语言模型获得的翻译结果。这些方法并不新鲜,但三者的结合的确是有效的。
Bordes称:“使用这两个系统,并在两种语言之间进行双向翻译,我可以将它们进行同时训练以获得相互促进,所以真正核心思想是使用这些词语(翻译模型),利用该语言模型做第一次翻译,然后用反向翻译的方法尝试进行改进。”
Facebook将在未来探索将这种人工智能系统用于其他形式的翻译,但需要更多的数据,并需要与专业翻译人员合作来验证结果。