基于半监督学习的文本分类关键技术研究

基于半监督学习的文本分类关键技术研究

ID:34963642

大小:2.23 MB

页数:66页

时间:2019-03-15

基于半监督学习的文本分类关键技术研究_第1页
基于半监督学习的文本分类关键技术研究_第2页
基于半监督学习的文本分类关键技术研究_第3页
基于半监督学习的文本分类关键技术研究_第4页
基于半监督学习的文本分类关键技术研究_第5页
资源描述:

《基于半监督学习的文本分类关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于半监督学习的文本分类关键技术研究Textclassificationbasedonsemi-supervisedlearning孙旭明哈尔滨工业大学2018年6月工程硕士学位论文国内图书分类号:TP315学校代码:10213国际图书分类号:681.3密级:公开基于半监督学习的文本分类关键技术研究硕士研究生孙旭明:导师李生:教授申请学位工程硕士:学科计算机:技术所在单位计算机科学与技术学院:答辩日期2018:年6月授予学位单位哈尔滨工业大学:ClassifiedIndex:TP315U.D.C:681.3DissertationfortheMaster’sDegreein

2、EngineeringTextclassificationbasedonsemi-supervisedlearningCandidate:SUNXumingSupervisor:Prof.LIShengAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTech

3、nology哈尔滨工业大学工程硕士学位论文摘要面对互联网中大量冗杂的文本信息,自动文本分类技术可以实现对这些文本信息的自动分类、辨别,在垃圾邮件处理,信息过滤,搜索引擎,语义消歧等多个领域都有着重要的应用。自动分类技术可以实现对互联网上冗杂的信息进行分类处理,从而帮助人们快速找到人们所需要的信息。早期的文本分类方法通常需要大量的有标注的训练数据集,以有监督的方式训练文本分类器。但是获取有标注的文本数据集需要大量的人力,并且往往利用有标注数据集训练的分类器泛化性能较差。而互联网上存在着大量的无标注数据,简单易得,人们开始研究利用半监督学习来进行文本分类的方法。半监督文本分类技术同时利用有

4、标记数据和无标记语料来训练分类器。通过不同的半监督学习方式同时利用有标签数据和无标签数据中的有用信息,从而提高分类器的性能和泛化能力。本文的研究工作主要分为以下几个方面:(1)对经典文本分类方法进行了介绍和分析,详细对比了经典文本分类方法的优劣。并基于经典文本分类方法进行了相关实验。(2)基于深度学习的方法,构建基于LSTM的文本分类器,并向其中引入对抗训练的思想。通过向输入LSTM的词嵌入加入对抗扰动的方法,使得词嵌入的语义表达更加充分,原本语法结构相似但语义不同的词得以区分开。通过残差网络架构,进一步提高词嵌入的语义表达能力。将构建的分类器用于半监督任务上进行测试。(3)为了进一步

5、提取文档表示中的类别信息,提高分类性能,向分类器中引入了自注意力机制。自注意力机制可以简单高效的学习到句子的内部结构,从而提取到文本中不同方面的信息,可以用在文本分类任务上,本文分别引用了单维自注意力和多维自注意力,并进行了相关实验。实验结果表明,引入自注意力机制的分类模型文档的表征更加充分,分类性能更好。与基准模型相比,准确率提高了三个百分点;在相同的词嵌入预训练策略下,本文提出的模型准确率达到0.933,也取得了更好的分类效果。(4)分别使用RNNLM和自编码器语言模型对词向量进行预训练,探究不同预训练策略对分类模型性能的影响;通过改变有标注数据比例探究不同数量有标记数据对分类模型

6、性能的影响,实验表明,本文的提出分类模型在有标注数据量更小的时候相比基线模型可以取得更好的分类效果。在有标注数据减少到20%时,本文提出的分类模型相比基线模型的分类效果提高了5个百分点左右。关键词:半监督文本分类;LSTM;对抗训练;残差网络;自注意力机制I哈尔滨工业大学工程硕士学位论文AbstractFacedwithalargeamountofmiscellaneoustextinformationintheInternet,automatictextclassificationtechnologycanautomaticallyclassifyanddistinguishthes

7、etextinformation.Itiswidelyusedine-mailclassification,queryintentprediction,searchengines,topictracking,informationfiltering,andotherfields.Itcanhelpusersaccuratelyclassifycomplexandcomplicateddata,thusobtainingclassifiedtex

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。