基于深度神经网络模型的句子级文本情感分类研究

基于深度神经网络模型的句子级文本情感分类研究

ID:35067452

大小:2.72 MB

页数:66页

时间:2019-03-17

基于深度神经网络模型的句子级文本情感分类研究_第1页
基于深度神经网络模型的句子级文本情感分类研究_第2页
基于深度神经网络模型的句子级文本情感分类研究_第3页
基于深度神经网络模型的句子级文本情感分类研究_第4页
基于深度神经网络模型的句子级文本情感分类研究_第5页
资源描述:

《基于深度神经网络模型的句子级文本情感分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号TP391学校代码10590UDC004密级公开深圳大学硕士学位论文基于深度神经网络模型的句子级文本情感分类研究学位申请人姓名徐莹莹专业名称计算机科学与技术学院(系、所)计算机与软件学院指导教师姓名傅向华教授原创性声明本人郑重声明:所呈交的学位论文基于深度神经网络模型的句子级文本情感分类研究是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不含任何其他个人或集体已经发表或撰写的作品或成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本声明的法律后果由本人承担。论文作者签名:日期:年月日基于深度神经网络模型的句子级文本情感分类研究

2、摘要随着Web2.0应用的普及,用户从以前单纯的“读”网页转变为更多的参与“撰写”网页。用户通过在网络上分享、评论产生海量非结构化的数据,充分挖掘这些数据继而可以产生非常有价值的信息。传统的机器学习方法主要基于词袋向量,不能表达复杂的语言关系。近期,词嵌入表示由于连续、稠密、能表示“距离”概念并能捕获词语的语义和语法信息,而被广泛关注并用于自然语言处理任务中。但是,由于词嵌入仅能表示单独的词,所以在进行短语和句子的特征表达时,需要考虑语义组合问题,句子级在线用户评论的情感分析仍然面临着挑战。近年来,递归自动编码(RecursiveAutoencoder)和循环神经网络(RecurrentN

3、euralNetwork)两类深度学习模型被提出,进行语义组合,用于句子级情感分类任务中并取得了很好的效果,但都存在一定的缺陷,针对这些问题,本文以网络用户主观评论文本数据为研究对象,主要工作包括以下两个部分:(1)提出结合HowNet词典的双向短语递归自动编码模型(简称为CHL-Bi-PRAE)。先前的方法往往会产生比较深的解析树,训练复杂度较高;并且在训练过程中每个结点都需要标签;此外,采用贪婪策略的自动编码主要组合相邻的词或短语,导致不能捕获长距离的语义关系。针对这些问题,本文提出首先构建短语递归自动编码(PRAE),然后结合HowNet词典得到树中结点的情感值代替手工标注作为标签对

4、softmax分类器进行训练。并且我们的模型采用双向传播,捕获整个句子的信息,使学习到的特征更充分。与先前的递归自动编码和一些监督学习的方法(如支持向量机SVM、贝叶斯)在中英文数据集上的分类效果相比,本文提出的方法获得了更高的句子级情感分类准确率。(2)提出基于修辞结构理论的长短记忆网络(简称为RST-LSTM)。先前的LSTM网络虽然解决了RNN中存在的梯度消失问题,但都是线性链式结构,而后来提出的Tree-LSTM利用LSTM的忘记门机制,可以跳过对结果影响不大的子树,取得较好的结果,说明了基于序列的LSTM对文本结构依赖更强,但是,先前的树结构并不能清晰的指出哪颗子树重要,哪颗子树

5、影响不大,所以并不能充分发挥LSTM的特点。基于此,本文提出引入修辞结构理论(RST)对文本进行解析,在RST解析结构上构建长短记忆网络,充分利用LSTM结构特点,使I基于深度神经网络模型的句子级文本情感分类研究模型能够自动增强文本核心信息,过滤外围信息,并进一步添加关系特征,使特征表达更充分。关键词:递归自动编码;LSTM;HowNet词典;情感分析;修辞结构理论IIResearchofSentence-LevelSentimentClassificationforTextBasedonDeepNeuralNetworkAbstractsWiththepopularityofWeb2.0

6、applications,insteadofmerely"reading"thewebinformation,Internetusersareempoweredto"write"aswell.Peoplegivetheirsharestoriesandreviewstoproducelargeamountsofunstructureddata.Fullyminingthesedatacangenerateveryvaluableinformation.Traditionalmachinelearningmethodsoftenusebag-of-wordrepresentationswhi

7、chcannotproperlycapturemorecomplexlinguisticphenomena.Recently,wordembeddingshavebeenshowntocontinuous,dense,canrepresenttheconceptof"distance"andcapturesemanticandsyntacticinformationaboutwordsverywellsothatitha

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。