欢迎来到天天文库
浏览记录
ID:34963649
大小:1.09 MB
页数:70页
时间:2019-03-15
《基于跨语言分布式表示的跨语言文本分类》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文基于跨语言分布式表示的跨语言文本分类CROSSLINGUALTEXTCLASSIFICATIONBASEDONGROSSLINGUALDISTRIBUTEDREPRESENTATION高国骥哈尔滨工业大学2018年6月国内图书分类号:TP391.2学校代码:10213国际图书分类号:681.37密级:公开工程硕士学位论文基于跨语言分布式表示的跨语言文本分类硕士研究生:高国骥导师:曹海龙副教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学Cl
2、assifiedIndex:TP391.2U.D.C:681.37DissertationfortheMasterDegreeinEngineeringCROSSLINGUALTEXTCLASSIFICATIONBASEDONGROSSLINGUALDISTRIBUTEDREPRESENTATIONCandidate:GaoGuojiSupervisor:Prof.CaoHailongAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechno
3、logyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要本文的研究课题为跨语言文本分类,第一章首先介绍了该任务的来源、背景与意义,并总结了目前学术界对于该任务的研究现状,尤其是基于跨语言词向量表示的跨语言文本分类分类的研究进展。最后阐述了本文的研究路线与各章主要内容。第二章中本文首先
4、介绍了单语词向量的训练方法,并由单语词向量的训练方法出发,从两方面阐述了本文所使用的基线系统:第一种为基于线性映射的跨语言词向量训练方法,包括从源语言向目标语言的单向映射方法和基于典型关联分析的双向映射方法,第二种为单语词向量的训练方法skip-gram模型的直接推广,我们以这两种方法作为我们的基线系统。第三章中,本文分析了第二章中所述基线系统的不足之处,从两方面对基线系统进行了改进:首先我们基于基线系统中词向量的训练和分类器的训练两阶段所导致特征和分类器不适配的问题,提出了一种联合训练的方法,对词向量与分类器联合训练。
5、其次,针对基线系统中分类器模型较简单而拟合能力不够强的缺点,利用四种不同的分类器对分类进行了改进。我们在两个跨语言文本分类数据集上进行实验验证了我们的改进的有效性。第四章中,我们提出了一种全新的基于语义匹配的跨语言文本分类模型,将跨语言分布式表示的训练重新抽象为语义匹配问题,通过句意匹配任务训练一个句子编码器来同时得到句子和词的跨语言表示,训练分类器时直接采用句子编码器的一部分结构。我们在两个跨语言文本分类数据集上验证了我们模型的有效性。同时我们在单语文本分类任务上进行实验,证明了我们模型中的句子编码器作为分类器同样有较
6、好的性能。本文的创新主要体现在:首先,将两个训练引入跨语言文本分类任务中。训练与任务相关的分布式表示,并取得了较好的结果。对多种分类器在跨语言文本分类上的任务进行了实证性研究。最后,将跨语言文本分类模型看做语义匹配问题,并设计了一种全新的句子编码器,能够充分利用长距离信息和局部信息对句子进行编码。最终在跨语言文本分类任务上取得了良好的性能。关键词:跨语言;分布式表示;文本分类;联合训练;语义匹配1哈尔滨工业大学工程硕士学位论文ABSTRACTTheresearchtopicofthispaperiscross-langu
7、agetextclassification.Chapteronefirstintroducesthesource,backgroundandsignificanceofthistask,andsummarizesthecurrentresearchstatusofthistaskinacademia,especiallytheresearchprogressofcross-languagetextclassificationbasedoncross-languagewordvectorrepresentation.Fin
8、ally,theresearchrouteandmaincontentsofeachchapterofthisarticleareelaborated.Inthesecondchapter,thispaperfirstintroducesthetrainingmethodofmonolingualwordvector
此文档下载收益归作者所有