欢迎来到天天文库
浏览记录
ID:39627379
大小:332.00 KB
页数:43页
时间:2019-07-07
《关于统计机器翻译的思考姚天顺》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、关于统计机器翻译的思考姚天顺自然语言处理实验室东北大学tsyao@china.com2004.7.111.前言有这么两条消息:5月10日《参考消息》“随着又有10个国家加入欧盟,欧盟现有20种官方语言。年度翻译预算增加到10亿美元。”5月28日《参考消息》“欧盟新通过一项议案,所有成员国在欧盟会议上的文件不得超过15页A4纸,以减轻翻译人员的工作量。”机器翻译的现状和未来到底怎么样了?有计算机的那一天就有机器翻译的研究。计算机事业蓬勃发展,但机器翻译的道路至今仍然十分艰难。上世纪的八十年代,特别是九十年代,语料库语言学在计算语言学界兴起。最近的五年到十
2、年,机器学习方法又受到学术界特别的重视,数学方法大量地引进了语言信息处理。自然语言处理的研究是进了一大步,但对于机器翻译而言,真实的效果在哪里呢?回忆基于规则的机器翻译系统作为主流技术的时代,不管怎么样?多少还出现过一些有市场价值的系统,例如译星、华建和史晓东等的汉英翻译系统。华建的机器翻译,居然取得了国内单项软件出口的最高出售价。欧洲和日本情况也是这样,当前主流的机器翻译还都是基于规则的机器翻译系统。基于语料库的机器翻译方法,一般说来可以分为两类:一类是基于统计的机器翻译系统,另一类和基于模板的机器翻译方法。基于统计的机器翻译,简称为统计机器翻译。统
3、计机器翻译把源语言中任何一个句子都可能是目标语言中某些句子相似,这些句子的相似程度可能都不相同。那么,一个好的机器翻译系统就是那种能找到最相似句子的系统。但是这样的汉外机器翻译系统在我们国家从来也没有出现过。1994年,IBM公司的A.Berger,P.Brown等人发表了一个技术报告,即著名的论文:“ThecandideSystemofMachineTranslation。”他们用统计方法,各种不同的对齐技术,给出了命名为Candide的统计机器翻译系统.利用汉莎语料库(Hansardcorpus,英法双语语料库),总共有2,205,733英法句对作
4、为训练语料,实现了国际上第一个较为著名的英语到法语的统计机器翻译系统。一开始,系统的成绩不错,整体的系统的译准率超过了基于解释、转换、和生成的规则系统。ARPA(美国国防部高级研究计划署)把这个Candide翻译系统进行评测,并和国际上利用常规的规则系统构造的SYSTRAN机器翻译系统作比较,结果是,流利程度适当程度时间比率率199219931992199319921993SYSTRAN.466.540.686.743Candide.511.580.575.670Transman.819.838.837.850.688.625Manual.833.84
5、0TransmanisthepartoftheCandidesystemusedasatranslationassis-tancetool,i.e. amachine-aidedtranslationsystem.这个结果很了不起,在某种程度上推动了经验主义思潮更进一步向前发展。由于计算语言的复杂性,Candide系统还请了一些语言学家来帮助他们做形态分析、语义标注、和词典等。Candide系统仍不是一个纯统计的系统。这样的系统,看来很有希望,不知为什么,由于IBM公司外部和内部财政方面的原因,支持被撤走,他们的工作坚持到1995年,就被迫停止。呼声很
6、高的系统被中断了。有人说,纯统计的机器翻译注定是要失败的!美国著名机器翻译学者YorickWilks在批评Candide系统时指出:“他们在系统中引入符号结构就说明了,纯统计的假设已经失败了”(“Incorporatingsymbolicstructureshowsthepurestatisticshypothesishasfailed”)可见,统计方法是令人鼓舞的,可是它还没有解决所有困难的问题。2.新统计机器翻译系统的出现2000年,在JohnsHopkins的暑假Workshop,有来自南加州大学、罗切斯特大学、约翰.霍普金斯大学、施乐公司、宾州
7、大学、斯丹福大学等学校的研究人员,以Och为主的13人,写了一个FinalReport:SyntaxforStatisticalMachineTranslationOch博士发表的论文:“DiscriminativeTrainingandMaximumEntropyModelsforStatisticalMachineTranslation”,获ACL2002大会最佳论文奖。2001—2003年七月,在美国马里兰州JohnsHopkins美国商业部的NIST/TIDES(NationalInstituteofStandardsandTechnology
8、)atUniversityinBaltimore,Maryland评比过程中获最好成绩。构造了
此文档下载收益归作者所有