欢迎来到天天文库
浏览记录
ID:35078105
大小:3.11 MB
页数:57页
时间:2019-03-17
《微博文本情感分类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号:TP391单位代码:10183研究生学号:2013532032密级:公开吉林大学硕士学位论文(学术学位)微博文本情感分类研究ResearchonMicroblogSentimentClassification作者姓名:陈思专业:计算机软件与理论研究方向:知识工程与知识科学指导教师:欧阳继红教授培养单位:计算机科学与技术学院2016年4月未经本论文作者的书面授巧,依法收存和保管本论文书面版本、电子版本的任何单位和个人,均不得对本论文的全部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作
2、者著作权的商业性使用)。否则,应承担(但纯学术性使用不在此限侵权的法律责任。吉林大学硕±学位论文原创性声明,本人郑重声明:所呈交的硕±学位论文,是本人在指导教师的指导下,本论文独立进行研究工作所取得的成果。除文中已经法明引用的内容外不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研究。本人完全意识做出重要贡献的个人和集体,均已在文中臥明确方式标明到本声明的法律结果由本人承担。学位论文作者签名:叟,^日期:2016年5月巧日微博文本情感分类研究Researc
3、honMicoblogSentimentClassification作者姓名:陈思专业名称:计算机软件与理论指导教师:欧阳继红教授学位类别:学术硕士答辩日期:2016年5月24日摘要摘要微博文本情感分类研究作为文本数据挖掘的重要分支—文本情感分类(舆情分析),近年来受到越来越多的关注,同时也被广大学者所研究。伴随着微博的发展,使得短文本情感分析研究越来越热。微博文本中存在大量的新词,这些词具有明显的情感正负极性,但是它们没有加入到情感词典中,这会大大减弱我们的分类效果,情感词典的自动扩充是我们对微博情感分类研究
4、一个重点。传统的基于情感词典的情感分类模型构建起来比较简单容易实现且分类速度较快,但是分类的准确度较低,分类的好坏主要取决于情感词典的好坏。但是构建准确的情感词典需要我们具有一定的语言知识背景,这些背景知识的要求会阻碍我们对于微博情感分类的研究。现在研究中已存在不少扩充情感词典的方法,也取得了不错的效果,针对点互信息方法构建词典需要构建完整语料库的问题,我们提出了一种点互信息和信息检索相结合的算法来自动扩充情感词典。对于传统模型分类精度较低且构建传统模型对语言背景知识要求等一些问题,构建了一种基于深度学习的微博
5、文本情感分类模型,针对构建深度模型的训练语料库的问题提出了结合传统模型和深度学习模型的算法,具体工作如下:第一,新词识别,微博情感词典的自动扩充。为了解决传统模型下情感词典自动扩充的问题,提出了PMI-IR算法(点互信息与信息检索相结合的方法)来对微博的未登录词、新词进行识别,然后再更新到情感词典当中。第二,构建情感词典,根据构建的情感词典制定相应的判别规则来对文本进行分类。将情感词典分为了4个部分:基础情感词典(消极情感词典、积极情感词典)、程度副词词典、连词词典和否定词典。本文收集了网络上的几个主流情感词典
6、:台湾大学NTUSD-简体中文情感极性词典,知网hownet情感词典,以及大连理工大学的中文情感词汇本体库。对这些情感词典整合到了一起去除了那些重复的词汇,还对其中相当一部分词汇进行了校正优化,依据我们构建的微博情感词典制定了相应的判别规则来对微博文本进行情感分类。第三,文本深度学习模型构建,使用传统模型来收集深度模型的训练语料库。针对传统模型分类准确度较低的情况,构建了微博文本情感分类的深度学习模型,构建了基I摘要于LSTM(长短期记忆模型)的微博文本情感分类;由于这个模型是监督训练的,需要收集大量已经分好类
7、的语料,因此我们提出使用传统模型分类好的确定集来作为深度学习模型下的训练语料库;结合二种模型来帮助我们提高分类的精准度。关键词:微博文本情感分类,情感词典,深度学习,LSTM,PMI-IRIIAbstractAbstractResearchonMicroblogSentimentClassificationTextSentimentClassification(publicopinionanalysis)isoneofimportantbranchoftextmining,inrecentyears,ithas
8、getmoreandmoreattention,manypeoplebegintostudyit.Withthedevelopmentofmicroblog,shorttextsentimentanalysisisgettinghotandhot.Thetextofmicrobloghasalargenumberofunknownwords,newwords,butthesewords
此文档下载收益归作者所有