基于深度学习的多任务文本分类技术研究

基于深度学习的多任务文本分类技术研究

ID:37062607

大小:1.99 MB

页数:64页

时间:2019-05-16

基于深度学习的多任务文本分类技术研究_第1页
基于深度学习的多任务文本分类技术研究_第2页
基于深度学习的多任务文本分类技术研究_第3页
基于深度学习的多任务文本分类技术研究_第4页
基于深度学习的多任务文本分类技术研究_第5页
资源描述:

《基于深度学习的多任务文本分类技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文基于深度学习的多任务文本分类技术研究作者姓名陈震鸿学科专业软件工程指导教师蔡毅教授所在学院软件学院论文提交日期2018年4月MultitaskTextClassificationbasedonDeepLearningADissertationSubmittedfortheDegreeofMasterCandidate:ChenZhenhongSupervisor:Prof.CaiYiSouthChinaUniversityofTechnologyGuangzhou,China分类号:TP3学校代号:10561学号:201520134231华南理工大学硕士学位论文基于深度学习的多

2、任务文本分类技术研究作者姓名:陈震鸿指导教师姓名、职称:蔡毅教授申请学位级别:工学硕士学科专业名称:软件工程研究方向:机器学习论文提交日期:2018年4月20日论文答辩日期:2018年5月31日学位授予单位:华南理工大学学位授予日期:年月日答辩委员会成员:主席:闵华清委员:蔡毅杜卿陈俊颖饶洋辉摘要文本分类是一项具有重要研究价值的文本挖掘任务。传统的文本分类方法采用词袋模型来表示文本,导致词义和上下文信息大量丢失。针对这个问题,深度学习不仅采用词嵌入来有效捕捉词义,而且能根据单词顺序来捕捉上下文信息。然而,现有的文本分类数据集较小,不能充分训练深度学习模型中的大量参数。为此,我们采用了基于深

3、度学习的多任务文本分类技术。该技术结合了多任务学习的方式,综合利用多个相关任务的数据集来充分训练深度学习模型。经过调研发现,主流的基于深度学习的多任务文本分类模型存在两个重要不足。第一,主流模型没有考虑循环神经网络(RecurrentNeuralNetwork,RNN)的有偏问题,直接将它的最后一个隐藏层输出作为整个文本的特征表示,丢失了很多不在文本末尾的关键信息。第二,虽然主流模型采用门机制来帮助每个任务有选择性地使用共享特征,但门机制没有充分考虑一词多义的问题,导致不相关的共享特征被错误使用。针对第一个不足,我们采用池化层来抽取RNN所有隐藏层的关键特征,提出了UP-RNN模型。然而,

4、UP-RNN模型只采用RNN来捕捉前向上下文特征,却忽略了重要的后向上下文特征。为此,我们采用双向循环神经网络来捕捉前向和后向的特征,提出了UP-BRNN模型。然而,UP-BRNN模型只捕捉了共享特征,未捕捉特定特征。为此,我们提出了基于门机制的SP-BRNN模型。针对第二个不足,我们充分考虑一词多义的问题,引入并设计了Attention机制来识别相关的共享特征,提出了ASP-BRNN模型。为了验证本文的模型设计,我们在四个相关的文本分类任务上进行了多组对比实验。实验结果表明:第一,本文模型能有效解决上述的两个不足;第二,在这四个任务上,ASP-BRNN模型的分类正确率超过了主流的深度多任

5、务模型。关键词:文本分类;多任务学习;深度学习;特征捕捉;Attention机制IAbstractTextclassificationisanimportantresearchtaskoftextmining.Traditionaltextclassificationapproachesrepresenttextwithbag-of-wordsfeatureswhichfailtoeffectivelycapturewordmeaningandcontextinformation.Deeplearningcansolvethisproblem.Becauseitcannotonlyeffe

6、ctivelycapturewordmeaningwithwordembedding,butalsoutilizewordordertocapturecontextinformation.However,theexistinglabeleddatasetoftextclassificationtaskistoosmalltofullytrainthelargenumberofparametersindeeplearningmodels.Tosolvethisproblem,weadoptthemulti-tasktextclassificationtechniquebasedondeepl

7、earningforthetextclassificationtask.Becausemulti-tasklearningcanutilizedatasetofmultiplerelatedtaskstofullytraindeeplearningmodels.Afterourinvestigation,wefoundthattheexistingmodelshavetwoshortcomings.Firstly,the

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。