欢迎来到天天文库
浏览记录
ID:27489578
大小:156.00 KB
页数:7页
时间:2018-12-04
《Google翻译出现“水逆”,是员工的恶作剧?.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、Google翻译出现“水逆”,是员工的恶作剧? 最近,一些网友使用的Google翻译“水逆”了。 在Reddit上,有网友截图显示,在Google翻译中当某些语种的词汇翻译成英语时,输出的却是毫无由头的宗教语言。比如键入19个dog,将其从毛利语翻译成英语时,输出的却是“距离十二点的世界末日时钟还差三分钟,我们正在经历世界上的人物和戏剧性发展,这预示着我们正在无线接近末日,耶稣回归时日将近。” 但这只是众多无厘头翻译的其中之一。还有网友放出了很多“不详”的翻译内容。例如,在索马里语中,“ag”这个词被翻译成了“Gershon的儿子(sonsofGershon)”,“耶和
2、华的名字(nameoftheLORD)”,并且会引用圣经里的“cubits”(计量单位)和Deuteronomy(《申命记》)。 有网友留言称其为“恶魔”或者“幽灵”,猜测这是Google员工的恶作剧,也有人建议设置“建议编辑”功能,让用户可以进行修改为正确内容。Google发言人JustinBurr在一封电子邮件中称:这只是一个将无意义的话语输入系统然后产生无意义输出的功能。 不过JustinBurr并未透露Google翻译使用的训练数据是否有宗教文本。但上述诡异输出内容很可能已被Google翻译修正,AI科技大本营编辑输入上述相同内容后也并未发现异常。 但人们对探讨
3、Google翻译出现如此结果的背后原因热情不减,更专业的声音在不断发出。哈佛大学助理教授AndrewRush认为,这很可能与2年前Google翻译技术的改变有关,它目前使用了的是“神经机器翻译(NMT)”的技术。 BBNTechnologies的科学家SeanColbath从事机器翻译工作,他同意奇怪的输出可能是由于Google翻译的算法试图在混乱中寻找秩序。他还指出,索马里语、夏威夷语以及毛利语等产生最奇怪结果的语言,它们用于训练的翻译文本比英语或汉语等更广泛使用的语言要少很多。所以他认为,Google可能会使用像圣经等被翻译成多种语言的宗教文本来训练小语种的模型,这也解释了为什
4、么会最终输出宗教内容。 前Google员工DelipRao在其博客上则指出,当谈到平行语料库时,宗教文本是最低层次的共同标准资源,像“圣经”和“古兰经”这样的主要宗教文本有各种语言版本。 比如,如果你为政府部署一个Urdu-to-English(乌尔都语——英语)的机器翻译系统,那么很容易将一堆已经翻译成乌尔都语的宗教文本组合在一起。因此,可以合理地假设Google的平行语料库中包含所有的宗教文本,而对于许多资源不足的语言,它们不只是训练语料库中微不足道的部分。 那么,为什么我们看到Google翻译会输出宗教文本,尤其是以那些资源不足的语言对作为输入时,如上文中的毛利语?一种解
5、释是,因为宗教文本包含许多只会在宗教文本中出现的罕见词,而这些词在其他任何地方都不会出现。因此,罕见的词语可能会触发解码器中的宗教情境,尤其是当这些文本的比例很大时。另一种解释是该模型对输入的内容没有太多的统计支持,而输出也只是解码器模型的无意义采样。 更重要的是,他想要指出现在的神经机器翻译(NMT)真正存在的问题。 他特意总结了2017年PhilippKoehn和RebeccaKnowles撰写的一篇论文,内容如下: 1.NMT在域外数据上表现很差:像Google翻译这样的通用MT系统在法律或金融等专业领域的表现尤其糟糕。此外,与基于短语的翻译系统等传统方法相比,NMT系统
6、的效果更差。到底有多糟糕?如下图所示,其中非对角线元素表示域外结果,绿色是NMT的结果,蓝色是基于短语的翻译系统的结果。 MT系统在一个域(行)上训练并在另一个域(列)上进行测试。蓝色表示基于短语翻译系统的表现,而绿色表示NMT的表现。 2.NMT在小数据集上的表现很差:虽然这算是机器学习的通病,但这个问题在NMT中体现尤其明显。相比基于短语的MT系统,虽然NMT随着数据量的增加能进行更好地概括,但在小数据量情况下NMT的表现确实更糟糕。 引用作者的话来说,“在资源较少的情况下,NMT会产生与输入无关的输出,尽管这些输出是流畅的。”这可能也是Motherboard那篇文章中
7、探讨NMT表现怪异的另一个原因。 3.SubwordNMT在罕见词汇上的表现很糟糕:虽然它的表现仍然要好过基于短语的翻译系统,但对于罕见或未见过的词语,NMT的表现不佳。例如,那些系统只观察到一次的单词就会被drop掉。像byte-pairencoding这样的技术对解决这个问题有所帮助,但我们有必要对此进行更详细的研究。 我们可以看到图中像土耳其语(Turkish)这样的语言,遇到词的变形形式是很常见的。 4.长句:以长句编码并产生长句,这仍然
此文档下载收益归作者所有