机器翻译方法在跨语言文档分类中的应用研究.pdf

机器翻译方法在跨语言文档分类中的应用研究.pdf

ID:35100084

大小:2.78 MB

页数:67页

时间:2019-03-17

机器翻译方法在跨语言文档分类中的应用研究.pdf_第1页
机器翻译方法在跨语言文档分类中的应用研究.pdf_第2页
机器翻译方法在跨语言文档分类中的应用研究.pdf_第3页
机器翻译方法在跨语言文档分类中的应用研究.pdf_第4页
机器翻译方法在跨语言文档分类中的应用研究.pdf_第5页
资源描述:

《机器翻译方法在跨语言文档分类中的应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文机器翻译方法在跨语言文档分类中的应用研究RESEARCHONTHEAPPLICATIONOFMACHINETRANSLATIONINCROSS-LINGUALDOCUMENTCLASSIFICATION刘秋志哈尔滨工业大学2018年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:681.37密级:公开工学硕士学位论文机器翻译方法在跨语言文档分类中的应用研究硕士研究生:刘秋志导师:赵铁军教授申请学位:工学硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2018年

2、6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:681.37DissertationfortheMaster’sDegreeinEngineeringRESEARCHONTHEAPPLICATIONOFMACHINETRANSLATIONINCROSS-LINGUALDOCUMENTCLASSIFICATIONCandidate:QiuzhiLiuSupervisor:Prof.TiejunZhaoAcademicDegreeAppliedfor:MasterofEng

3、ineeringSpecialty:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要跨语言分档分类任务是一个给定源语言有标注训练集,在目标语言的测试集上进行测试的文档分类任务。对于特定语言上的分类任务,有监督方法需要的

4、人工标注语料成本较高。尤其在低资源语言上,往往很难获取需要的标注语料。跨语言文档分类任务尝试通过利用源语言(常常是高资源语言)上丰富的有标注语料得到目标语言(常常是低资源语言)上的文档分类器。该任务作为跨语言任务,对研究如何进行跨语言的迁移学习有着重要的理论价值。此外,由于现实世界中大多数语言属于低资源语言,该任务也有着较高的生产实践价值。机器翻译方法是将不同语言空间中的数据和知识映射到同一空间中的最直觉的方法。但前人的研究表明,基于机器翻译的方法在跨语言文档分类任务上的表现较差,和基于双语词向量的方法有着较大

5、的差距。本文针对前人提出的基于机器翻译的跨语言文档分类方法进行了细致地研究,提出并用实验验证了词频特征的稀疏问题是导致该方法性能较差的瓶颈。更多的实验表明,通过特征聚类降低特征的稀疏程度,可以有效地提升该基于机器翻译的跨语言文档分类方法的性能。因此本文提出使用细粒度的单语词向量进一步解决基于机器翻译的方法中的特征稀疏问题形成一个可以应用在有平行语料和无平行语料等各种语料条件下的跨语言文档分类框架。实验表明,本文提出的框架在多种场景下的跨语言文档分类任务上可以达到或超过state-of-the-art模型的性能。

6、在源语言和目标语言上有可用平行语料的情况下,本文的方法在英德方向上超过了之前最好的结果;在德英方向上可以达到之前最好的结果。在源语言和目标语言上没有可用平行语料时,本文提出的框架在利用无监督机器翻译系统时和直接使用无监督双语言词向量相比,同样获得显著性能提升。更多的分析表明,本文提出的框架对于所使用的翻译系统性能,词向量模型等均较为鲁棒,在结合有监督,无监督或在线机器翻译系统和不同的单语词向量模型时均可取得优秀性能。此外,在该任务中,本文提出的框架由于机器翻译模型的加入,和单纯使用双语词向量相比对某些单词在当前

7、上下文中的语义更加敏感。关键词:自然语言处理;跨语言文档分类;机器翻译;词向量-I-哈尔滨工业大学工学硕士学位论文AbstractCross-lingualdocumentclassification(CLDC)isdocumentclassificationtask,themodelofwhichistrainedonasourcelanguageandtestedonatargetlanguage.Fordocumnetclassificationtasksinaspecificlanguage,super

8、visedmethodsusuallyrequireexpensivehumanlabeledtrainingcorpora,whichisparticularlydifficulttoaccessinlow-resourcelanguages.CLDCattemptstoexploitlabeledtrainingdatasetsinasourcelan-guagetosolvedo

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。