面向汉英机器翻译的 双语语料库的建设及其管理.pdf

面向汉英机器翻译的 双语语料库的建设及其管理.pdf

ID:52287174

大小:147.07 KB

页数:4页

时间:2020-03-26

面向汉英机器翻译的 双语语料库的建设及其管理.pdf_第1页
面向汉英机器翻译的 双语语料库的建设及其管理.pdf_第2页
面向汉英机器翻译的 双语语料库的建设及其管理.pdf_第3页
面向汉英机器翻译的 双语语料库的建设及其管理.pdf_第4页
资源描述:

《面向汉英机器翻译的 双语语料库的建设及其管理.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、计算机辅助术语研究!""#年第$期面向汉英机器翻译的双语语料库的建设及其管理0常宝宝詹卫东张华瑞(北京大学计算语言学研究所)-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-,,,,,,,,,,,,关键词#双语语料库;机器翻译;语料库标记;语料库标注,,,,,,,,摘要#近年来,在语言信息处理的研究和开发中,单语和多语语料库(主要是双语语,,,,,,,,料库)的作用日益突显

2、出来。为了支持一项正在进行的汉英机器翻译系统的开发,我们建立,,,,,,,,,,了一个汉英双语语料库。本文简要介绍了该语料库的建设和管理情况。,,,,,,,,,,,,,,!"#"$%&’#()*+&,()$,-*&.-")$’$/"-,0’$’%121$-,,,,,,,,,,,,3)*(4"$1,156$%#",40’.4"$17*’$,#’-")$,,,,,,,,,,!"#$%&’()’(*"#$+,-.(/0*"#$%"1’21-,,,,,,,,,,,,,,!"#$%&’()$%&%’()*&+,-.)/01*+2%’34-*’/&*4%,’0+,-.)/1

3、*-5).0+,-.)/*’’,4*4%,’,,,,,,,,*+(,&-.,)6’-3+3’473*-/01,’,&%’()*&,-1)&4%&%’()*&8.-%1*-%&7$%&%’()*&9+,-.,-**-3,,,,,,,,:%3;3<*/537-3/,)-+3/%’&*’()*(3%’=,-1*4%,’.-,+3//%’(*’<&*’()*(33’(%’33-%’(.-,>3+4/?,,,,,,,,@,/)..,-4*’,’(,%’(A2%’3/3BC’(&%/21*+2%’34-*’/&*4%,’.-,>3+40*A2%’3/3C’(&%/2$%&%

4、’D,,,,,,,,()*&+,-.)/%/$3%’(/34).?@2%/.*.3-(%:3/*$-%3=<%/+)//%,’,’+,’/4-)+4%,’,=423+,-.)/?,,,,,,,,,,,,-,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,-一、引言为三类:一是研究双语语料的对齐技术(H&%(’13’4),国内外学者就此提出多种策略和方近年来,在语言信息处理的研究

5、和开发中,单法,现在已经出现了许多对齐双语或多语语料的语和多语语料库(以双语语料库居多)的作用日益程序或工具〔I*&3JKKL〕;二是研究双语语料的各凸显出来。特别是在机器翻译研究中,人们提出了种应用,如在基于统计的机器翻译技术〔F-,;’多种基于双语语料库的新方法,例如采用所谓的JKKM〕、基于实例的机器翻译技术〔N*(*,JK"O〕,双基于实例(CE*1.&3BF*/3<)的或基于存储语词典编纂〔P&*:*’/*’<@Q,)53-1*’’JKKM〕技术(@-*’/&*4%,’G31,-7)的机器翻译方法,可以直接中,双语语料库都发挥着十分重要的作用;三是双使

6、用经过对齐的双语语料改善机器译文的质量。语语料库的设计、采集、编码和管理问题。目前比此外,也可以通过统计模型从双语语料库中获取较著名的语料库编码方案有@C6文本编码标准以双语词典和翻译模式,从而改进传统的机器翻译及ACR标准,两者均基于RIGS标记语言。就前两方法。除中文信息方面的应用之外,双语语料库的类研究来说,中国国内目前做了较多的跟踪研究建设对于双语词典编纂、跨语言的对比研究也具工作,而对于第三类研究,即双语语料库尤其是涉有重要价值。及汉语的双语语料库的建设、编码和管理研究,探目前关于双语或多语语料库的研究大致可分索工作似乎做的相对较少。与此相关,目前国内

7、外·!"·!""#年第$期计算机辅助术语研究都还没有见到有关系统的、经过深度加工的、以汉收集了一些具有非常流畅自然的中文翻译的英语语为源语言的双语语料库的报道。材料。北京大学计算语言学研究所、清华大学智能$&文本应以全文形式收入语料库,这将有益技术国家重点实验室和中国科学院计算所三家单于篇章知识的获取和学习,一个实用的机器翻译位联合承担了国家"#$课题———“面向新闻领域系统最终必须面对全文的翻译。的汉英机器翻译系统”的研制开发任务。系统决定’&就创作时间而言,所有收入的文本应当是采用基于多种方法的多引擎体系结构(将基于规最近几年的文本,这样才能够反映当下语言的

8、实则的方法与基于语料库的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。