云翻译平台下基于海量语料统计机器翻译方法研究

云翻译平台下基于海量语料统计机器翻译方法研究

ID:32428937

大小:3.16 MB

页数:81页

时间:2019-02-04

云翻译平台下基于海量语料统计机器翻译方法研究_第1页
云翻译平台下基于海量语料统计机器翻译方法研究_第2页
云翻译平台下基于海量语料统计机器翻译方法研究_第3页
云翻译平台下基于海量语料统计机器翻译方法研究_第4页
云翻译平台下基于海量语料统计机器翻译方法研究_第5页
资源描述:

《云翻译平台下基于海量语料统计机器翻译方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学学位论文原创性声明本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。本人在论文写作中参考其他个人或集体己经发表的研究成果,均在文中以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活动规范(试行)》。另外,该学位论文为()课题(组)的研究成果,获得()课题(组)经费或实验室的资助,在()实验室完成。(请在以上括号内填写课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别声明。)声明人(签名):彳舱侈砂易年f月2》EtIIIIIIIlUlUlUllIIIIUlIIIIY2343953厦门大学学位论文著作权使用声明本人同意厦门大学根据《中华人民共和国学位条例暂行实

2、施办法》等规定保留和使用此学位论文,并向主管部门或其指定机构送交学位论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于:()1.经厦门大学保密委员会审查核定的保密学位论文,于年月日解密,解密后适用上述授权。()2.不保密,适用上述授权。(请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密委员会审定的学位论文均为公开学位论文。此声明栏不填

3、写的,默认为公开学位论文,均适用上述授权。)声明人(签名):砂f;年厂刖寥日百彬摘要随着信息技术的不断进步和计算机网络的飞速发展,每天在互联网上传播的信息和知识达到以往数倍。同时,现实领域中也产生了海量的双语数据,这些数据对于统计机器翻译研究无疑是一笔巨大的财富。但是,由于数据来源不同、获取方法粗糙、译员水平不一等问题,导致数据的质量和领域存在巨大差异,这些差异性都会影响到机器译文的质量。此外,受限于计算能力和存储能力的制约,在单机环境下已经很难高效的处理TB级以上的大规模文本语料。本文围绕上述几个问题展开研究,尝试分析并解决语料质量和领域差异对统计机器翻译带来的问题。主要工作和创新点包括以下

4、几点:1.基于双语句对质量的语料筛选。本文提出了两种语料筛选策略,基于双语句对长度比值方法和基于词对齐信息方法。这两种方法的创新之处是都不需要额外语言学资源如双语词典、句法分析器等作为辅助,不需要人工干预,可以自动挑出质量较差的句对,并可以适用于任何语种对。实验表明,两种方法均有不错的效果,可以有效提高统计机器翻译质量。2.双语平行句对的领域自动分类。本文分析了领域差异对统计机器翻译系统的影响。提出了一种基于n元组的半监督领域分类方法,实现了对大规模混合领域双语句对的句级领域分类。使用该分类器识别出待译语句的领域种类,并应用对应领域的翻译系统完成翻译任务。3.大规模文本处理的分布式算法实现。本

5、文结合开源系统Hadoop,使用分布式处理算法实现语料筛选和领域分类。关键词:机器翻译;语料处理;领域分类;云计算ⅡAbstractWiththerapiddevelopmentofinformationtechnologyandthecontinuousimprovementofnetworks,theinformationandknowledgespreadedontheIntemeteverydayismuchmorethanbefore.And,therearevastamountsofbilingualdatainthereallife,it'sundoubtedlyagreatas

6、setfortheresearchofstatisticalmachinetranslation.However,duetothedifferentdatasources,roughmethodsofdataacquisitionanddifferentabilityofinterpreters,thereisahugedifferenceinthequalityanddomainbetweencorpusesthatitwillaffectthequalityofmachinetranslation.Inaddition,subjecttotheconstraintsofcomputingp

7、owerandstoragecapacity,itishardtoprocessthelarge-scaletextcorpusefficientlyonTerabyteleveloraboveinastand.aloneenvironmentWithregardtotheissuesdescribedabove,thisthesistriestoanalyzeandsolvetheproblem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。