中国科学院研究生院硕士学位论文

中国科学院研究生院硕士学位论文

ID:34435889

大小:734.46 KB

页数:71页

时间:2019-03-06

中国科学院研究生院硕士学位论文_第1页
中国科学院研究生院硕士学位论文_第2页
中国科学院研究生院硕士学位论文_第3页
中国科学院研究生院硕士学位论文_第4页
中国科学院研究生院硕士学位论文_第5页
资源描述:

《中国科学院研究生院硕士学位论文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、分类号TP3密级_________________________UDC_______________________编号_________________中国科学院研究生院硕士学位论文统计机器翻译预处理若干技术研究黄瑾指导教师刘群研究员中国科学院计算技术研究所申请学位级别工学硕士学科专业名称计算机软件与理论论文提交日期2007年5月论文答辩日期2007年6月培养单位中国科学院计算技术研究所学位授予单位中国科学院研究生院答辩委员会主席林守勋独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论

2、文中不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明。签名:___________________日期:____________________关于论文使用授权的说明本人完全了解中国科学院软件研究所有关保留、使用学位论文的规定,即:中国科学院软件研究所有权保留送交论文的复印件,允许论文被查阅和借阅;中国科学院软件研究所可以公布论文的全部或部分内容,可以采用影印、缩印或其它复制手段保存论文。(保密的论文在解密后应遵守此规定)签名:__________导师签名:__________日期:__________摘要摘要

3、大规模的双语句子对齐语料库及双语词典等数据资源是构建高质量统计机器翻译系统的重要数据基础。本文提出了若干统计机器翻译预处理中数据资源的使用策略,目的在于尽可能地挖掘已有资源的潜力,提高统计机器翻译系统的翻译质量,包括以下几方面的内容:1.基于信息检索模型的统计机器翻译训练数据选择与参数优化方法大规模的双语句子对齐语料库是最常用的统计机器翻译模型的训练数据。与传统的通过扩大语料库规模来提高统计机器翻译质量的策略不同,我们针对不同的应用环境提出了两种基于信息检索模型的统计机器翻译训练数据选择与参数优化方法,其中离线数据选择方法选择更相似的数据来训练生成更优化的统计机器翻译

4、模型,在线参数优化方法选择更相似的模型参数组合来生成统计机器翻译模型。实验证明,两种方法均可有效地提高统计机器翻译系统的翻译质量。2.应用于特定领域统计机器翻译的词典融合策略双语词典是统计机器翻译可利用的重要数据资源,但是缺乏概率信息使得词典的使用一直不是十分充分。与传统的直接将词典加权混入句子对齐的语料库中进行训练的方法相比,我们提出的基于切词和基于特征的词典融合方法,可在一定程度上解决传统方法中词典数据稀疏、概率估计不准确、无法动态添加新词等问题,特别适合于训练语料规模不大的特定领域统计机器翻译。我们将该方法融入一个为专利文献服务的统计机器翻译系统中,有效地提高了

5、机器翻译的质量。3.基于规则的命名实体翻译模块的设计及实现由于命名实体中新词语较多,单纯依靠统计方法从语料库中获得的翻译知识往往面临较为严重的数据稀疏问题,将基于规则的翻译模块引入命名实体翻译是解决这一问题的有效手段。我们开发了一个通用的基于规则的命名实体翻译模块,可识别并翻译待译文本中的时间词、数词、人名、地名及机构名等多种类型的词条,翻译结果作为候选短语表提供给统计机器翻译的解码器进行选择,可有效解决训练语料库中此类词条的数据稀疏问题,提高机器翻译的质量。关键词:统计机器翻译;预处理;训练语料选择与优化;词典融合;命名实I摘要体翻译IIAbstractSomeSt

6、udiesofStatisticalMachineTranslationPre-processingHUANGJin(ComputerSoftwareandTheory)Directedby:LIUQunAbstractThelarge-scalebilingualcorporaanddictionariesareessentialresourcesforconstructinghigh-performancestatisticalmachinetranslationsystems.Wetrytofindsomebetterpre-processingmethodst

7、ousetheavailabledataresourcestopromotethequalityofmachinetranslationsystems.Theresearchresultsofthepapercanbesummarizedasfollows:1.DataselectionandparameteroptimizationbasedoninformationretrievalmodelParallelcorpusisthemostimportantresourcefortranslationmodeltraininginstatistic

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。