可比语料中双语多词术语互译对抽取方法研究

可比语料中双语多词术语互译对抽取方法研究

ID:36565590

大小:3.51 MB

页数:58页

时间:2019-05-12

可比语料中双语多词术语互译对抽取方法研究_第1页
可比语料中双语多词术语互译对抽取方法研究_第2页
可比语料中双语多词术语互译对抽取方法研究_第3页
可比语料中双语多词术语互译对抽取方法研究_第4页
可比语料中双语多词术语互译对抽取方法研究_第5页
资源描述:

《可比语料中双语多词术语互译对抽取方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文可比语料中双语多词术语互译对抽取方法研究ResearchonExtractionofBilingualMulti.wordTermTranslationPairsfromComparableCorpora学号:21009228指导完成El期:窒Q!墨生垒月2昼旦大连理工大学DalianUniversityofTechnology大连理工大学学位论文独创性声明作者郑重声明:所呈交的学位论文,是本人在导师的指导下进行研究工作所取得的成果。尽我所知,除文中已经注明引用内容和致谢的地方外,本

2、论文不包含其他个人或集体已经发表的研究成果,也不包含其他己申请学位或其他用途使用过的成果。与我一同工作的同志对本研究所做的贡献均已在论文中做了明确的说明并表示了谢意。若有不实之处,本人愿意承担相关法律责任。学位论文题目:互丝!玉挝生垒i因塑塑叠煎垫亟查塾至墨整作者签名:堑金金苤日期:—兰生堕年—乙月—丘曰大连理工大学硕士学位论文摘要双语术语互译对抽取是自然语言处理领域中一个重要的研究课题。作为基础资源,双语术语互译对被广泛应用于机器翻译、信息抽取、双语术语词典编撰以及跨语言信息检索等领域。早期的

3、术语互译对抽取工作主要在平行语料上开展,存在语料规模不足等问题。与通过人工翻译或者法规文件等获得的平行语料库相比,可比较语料库具有代价低、来源广等特点。目前,基于可比较语料的研究越来越多,从可比较语料库中挖掘词级别的信息己成为研究的热点。本文在可比较语料的基础上进行双语多词术语互译对的抽取工作。首先从可比较语料库中分别抽取中文多词术语和英文多词术语,然后通过计算中英多词术语之间多个特征值得到术语匹配对,最后使用阂值限定法过滤正确的术语对。其中,在计算术语匹配对时,本文使用最小化样本风险算法来调节

4、特征权重。本文设计和实现了一个多词术语互译对抽取系统,其中,中英可比语料库作为系统的输入,中英多词术语互译对集合作为系统的输出。系统主要分为3个模块:(1)多词术语抽取模块:(2)基于多特征的互译对相似度计算模块;(3)多特征融合和过滤模块。多词术语抽取模块分别从对应的单语语料库中抽取中文多词术语和英文多词术语。互译对相似度计算模块,使用翻译模型特征、词频同现特征、中英匹配特征、英中匹配特征和词长度特征计算中英多词术语之间的匹配度。多特征融合和过滤模块,使用最小样本风险算法(minimumsam

5、plerisk,MSR)调整各个特征的权重,然后将各个特征值加权求和,结果作为互译对最终的相似度。每个中文多词术语和多个英文多词术语比较,构建多个候选中英多词术语互译对,选择相似度最高且大于阈值的互译对作为正确结果。本文的主要贡献:(1)抽取多词术语时,对现有算法进行改进,并依据语言学知识制定了若干过滤规则,提高了术语的抽取效果;(2)匹配互译对时,将多特征线性融合模型引入到多词术语互译对的抽取工作中,选择了适当的特征,并使用判别学习算法调节特征权重,最后实验验证了本文方法的有效性。关键词:可比

6、较语料库;多词术语;机器翻译;多特征融合可比语料中双语多词术语互译对抽取方法研究ResearchonExtractionofBilingualMulti-wordTermTranslationPairsfromComparableCorporaAbstractTheextractionofbilingualtermtranslationpairsiSanimportanttopicinthefieldofnaturallanguageprocessing.Asbasicresources,bil

7、ingualtermtranslationpairshavebeenwidelyusedinmachinetranslation,informationextraction,bilingualtermcompilationandcross.1anguageinformationretrievalandSOon.111eearlyextractionworkismainlybasedonparallelcorpora.Bycomparisonwithparallelcorporawhicharem

8、ainlycollectedfromartificialtranslationorregulationdocuments,comparablecorporahavethecharacteristicsoflOWCOStandwidesource.Atpresent.withtheincreaseofcomparablecorpus-basedresearch,theminingwordlevelinformationfromthecomparablecorporahasbecomearesear

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。