基于实例的机器翻译.pdf

基于实例的机器翻译.pdf

ID:52286681

大小:82.41 KB

页数:6页

时间:2020-03-26

基于实例的机器翻译.pdf_第1页
基于实例的机器翻译.pdf_第2页
基于实例的机器翻译.pdf_第3页
基于实例的机器翻译.pdf_第4页
基于实例的机器翻译.pdf_第5页
资源描述:

《基于实例的机器翻译.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、基于实例的机器翻译——方法和问题王厚峰(北京大学)关键字:基于实例的机器翻译,双语对齐,相似度计算,模板获取摘要:本文介绍了基于实例的机器翻译方法,并对基于实例的机器翻译的若干问题,如双语实例的加工对齐、实例的相似度计算和实例模板提取等问题作了说明。MethodandIssuesofExample-BasedMachineTranslationWangHoufengKeywords:EBMT,BilingualAlignment,SimilarityMeasure,TemplateAcquisition.Abstract:ThebasicframeofExamplebasedmach

2、inetranslationisconcernedinthispaper.Somekeyissues,suchasbilingualalignment,similaritymeasurebetweeninputsentenceandexample,andtemplateacquisition,areintroduced.一、引言早期的机器翻译本质上都是基于语言规则或语言知识RBMT(RuleBasedMachineTranslation)的。如,词法规则,句法分析规则,转换规则,目标语生成规则等。这些规则都是根据语言专家的经验总结归纳出来的。直译法、转换生成方法、中间语言方法等都可以

3、归为这一类。在上一世纪80年代中后期,这种纯粹基于语言知识的状况渐渐被基于语料库的机器翻译CBMT(Corpus-BasedMachineTranslation)方法打破。语料库方法中最有影响的是IBM公司的P.Brown提出的基于统计的机器翻译SBMT(StatisticsBasedMachineTranslation)。受语音处理的启发,P.Brown在1988年第二届TMI会议上提出了用隐马尔科夫模型HMM(HiddenMarkovModel)进行机器翻译的想法,这一想法震惊了当时的与会者,并直接导致了语料库方法在自然语言处理上的迅速发展。另一个影响更为广泛的机器翻译方法是日本

4、的长尾真(MakotoNagao)1981年提出的[6]基于实例的机器翻译EBMT(ExamplebasedMachineTranslation),并于1984年发表。基本思想是在已经收集的双语实例库中找出与待翻译部分最相似的翻译实例(通常是句子),再对实例的译文通过串替换,串删除以及串增加等一系列变形操作,实现翻译。[7,8]基于实例的翻译方法受到广泛关注是在进入90年代之后。其中,Sato等人起到了很好的推动作用。二、EBMT的基本思想长尾真认为,人们在翻译简单句子时并没有做语言的深层分析,而是先将句子分解为几个片断(短语),然后,借助于已有片断的翻译,将分解的每个片断翻译成目标

5、短语,最后在将这些短语组合起来形成一个长的句子。基于上述思想,长尾真提出了基于实例的机器翻译EBMT的思想。对应地,EBMT也分为三大部分:将实例划分为片断,确定各个片断的翻译以及重组片断。例2.1.(a)她买了一本计算语言学入门书假定计算机内已经存储了如下的实例对:(b)她买了一件时髦的夹克衫.Sheboughtasharpjacket.(c)他正在读一本计算语言学入门书HehasbeenreadingabookonintroductiontoComputationalLinguistics.例2.1(a)可以通过(b)中“他买了”对应的Shebought和(c)中“一本计算语言学

6、入门书”对应的abookonintroductiontoComputationalLinguistics重组产生:SheboughtabookonintroductiontoComputationalLinguistics.一般来说,EBMT主要有如下部分构成:双语语料库语义辞典双语辞典待翻译句子相似实例检索重组与调整翻译结果图2.1EBMT基本结构图在EBMT中,对齐的双语语料库是最重要的知识库之一。实例的粒度越大,当翻译用到时,其效果则越理想;但另一方面,粒度越大,能够直接使用的可能性又越小。因此,在实例的粒度选择上,应该考虑到一定程度的平衡。一般认为,实例的粒度定位在句子一级比

7、较合适;也有大量的实验表明,其粒度要么定位在子句一级,要么以结构形式表示,这样才能使实例的引用达到更好的效果。[9由上图可知,语义词典也是不可或缺的重要知识源。根据Somer]引入的长尾真的例子:例2.2(a)Heeatspotatoes是待翻译的句子,同时,假定实例库中有如下的实例:(b)AmaneatsvegetablesHito-wayasai-otaberu(c)AcideatsMetal.San-wakinzoku-Oocasu.这两个实例从形式

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。