基于维基百科地双语语料挖掘技术的研究

基于维基百科地双语语料挖掘技术的研究

ID:23665100

大小:1.90 MB

页数:92页

时间:2018-11-09

基于维基百科地双语语料挖掘技术的研究_第1页
基于维基百科地双语语料挖掘技术的研究_第2页
基于维基百科地双语语料挖掘技术的研究_第3页
基于维基百科地双语语料挖掘技术的研究_第4页
基于维基百科地双语语料挖掘技术的研究_第5页
资源描述:

《基于维基百科地双语语料挖掘技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、苏州大学硕士学位论文基于维基百科的双语语料挖掘技术研究姓名:孟桂国申请学位级别:硕士专业:计算机技术指导教师:姚建民2010-11-28基于维基百科的双语语料挖掘技术研究中文摘要维基百科的双语语料挖掘技术研究中文摘要大规模双语平行或可比较语料库是构建高质量统计机器翻译系统的重要基础资源。目前大规模双语语料库的建设存在着很大的困难,在规模、时效性和领域平衡性等方面还不能满足处理真实文本的需要。本文充分利用维基百科中大量存在的双语平行或可比较资源,研究自动获取的方法并验证其有效性,从而获取满足双语平行或可比较语料。从某个特定的网页中,需要

2、定义一种启发式信息来概括这类多语种平行或可比较文本存在的共同特征,以此作为一个有效的入口,来获取我们关心的资源。维基百科中双语平行或可比较资源是完全存在于两个平行或可比较的单语网页中。本文针对这种资源定义了有效的启发式信息,从而很好地解决了大规模数据的来源问题。网络作者在进行双语平行或可比较网页URL命名时往往具有一定的规律性。本文提出了一种自动发现一个具有URL命名规律性算法,从而从维基百科中找出尽可能多的可信的中英文候选网页配比对。双语平行或可比较的网页文本不同于一般的双语对照文本,其中不仅存在有用的双语对照信息,还存在一定的无关

3、噪音信息等;此外,网页文本中的词汇量也大大超出任何一本双语词典的范围。这些都造成了对双语平行或可比较网页进行句子对齐的难度。本文基于维基百科的网页结构,充分利用双语平行或可比较网页HTML结构相似性这一优点,提出了一种基于标签序列最长公共子串的DOM树对齐改进算法的双语平行或可比较句对的抽取技术,从而取得到了很好的效果。最后,我们实现了上述三个方面的技术,搭建了一个可以在维基百科上自动获取双语平行或可比较语料库的实验平台。关键词:维基百科,双语网页,网页挖掘,双语句对,统计机器翻译作者:孟桂国指导教师:姚建民IAbstractTheR

4、esearchofBilingualCorpusMiningbasedonWikipediaTheResearchofBilingualCorpusMiningbasedonWikipediaAbstractLarge-scaleparallelorcomparablecorpusareessentialresourcesinconstructinghigh-performancestatisticalmachinetranslationsystems.Nowtherearegreatdifficultiesinbuildinglar

5、ge-scalebilingualparallelorcomparablecorpus,theexistingbilingualcorpusstillcann’tmeettheneedofprocessingrealtextbecauseofsmallscale,poortimelinessandun-balanceofdomains.Thisthesisfocusesonresearchingamethodtoobtainlarge-scalebilingualparallelorcomparablecorpusfromWikipe

6、diaautomaticallyandverifyingitvalidity.Weneedtodefineheuristicinformationtoobtainthewebresourceswhichweconcernedfromspecialweb.InWikipedia,parallelorcomparablebilingualresourcesexistintwoparallelorcomparablemonolingualwebpages.Inthispaper,wedefinedeffectiveheuristicinfo

7、rmationforthesetwokindsofresourcestoobtainmorebilingualdata.Websiteauthorsusuallyfollowsomerulesinnamingparallelorcomparablebilingualwebpages.WepresentanalgorithmofURL’snamingtemplatestofindmorecandidatewebpagesautomaticallyfromWikipedia.Webpagesmayconsistofnon-translat

8、ionalcontentandout-of-vocabularywords,bothofwhichreducesentencealignmentaccuracyandincreasethedifficulties.Toi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。