选自arXiv
机器之心编译
编辑:杜伟
当今世界上有多种语言,其中只有大约种具有机器翻译系统,那其他语言怎么办呢?谷歌正在为这些小众语言创建通用的机器翻译系统。
过去十年,学术和商业机器翻译系统(MT)的质量已经得到了大幅度的提升。这些提升很大程度上得益于机器学习的进展和可用的大规模web挖掘数据集。同时,深度学习(DL)和E2E模型的出现、从web挖掘得到的大型并行单语言数据集、回译和自训练等数据增强方法以及大规模多语言建模等带来了能够支持超过种语言的高质量机器翻译系统。
然而,虽然低资源机器翻译出现了巨大进展,但已经构建广泛可用且通用的机器翻译系统的语言被限制在了大约种,显然它们只是当今全世界使用的多种语言中的一小部分。除了语言数量受限之外,当前机器翻译系统所支持的语言的分布也极大地向欧洲语言倾斜。
我们可以看到,尽管人口众多,但非洲、南亚和东南亚所说的语言以及美洲土著语言相关的服务却较少。比如,谷歌翻译支持弗里西亚语、马耳他语、冰岛语和柯西嘉语,以它们为母语的人口均少于万。相比之下,谷歌翻译没有提供服务的比哈尔方言人口约为5万、奥罗莫语人口约为万、盖丘亚语人口约为万、提格里尼亚语人口约为万(年)。这些语言被称为「长尾」语言,数据缺乏需要应用一些可以泛化到拥有充足训练数据的语言之外的机器学习技术。
构建这些长尾语言的机器翻译系统在很大程度上受到可用数字化数据集和语言识别(LangID)模型等NLP工具缺失的限制。这些对高资源语言来说却是无处不在的。
在近日谷歌一篇论文《BuildingMachineTranslationSystemsfortheNextThousandLanguages》中,二十几位研究者展示了他们努力构建支持超过0种语言的实用机器翻译系统的成果。
论文