基于微博的药物评论细粒度情感分析

基于微博的药物评论细粒度情感分析

ID:43496084

大小:1.85 MB

页数:60页

时间:2019-10-08

基于微博的药物评论细粒度情感分析_第1页
基于微博的药物评论细粒度情感分析_第2页
基于微博的药物评论细粒度情感分析_第3页
基于微博的药物评论细粒度情感分析_第4页
基于微博的药物评论细粒度情感分析_第5页
资源描述:

《基于微博的药物评论细粒度情感分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、-0183R05TP391:1分类号;.1单位代码:研究生学号40密级:公开:20157220吉林大学硕士学位论文学术学位()基于微博的药物评论细粒度情感分析-ralsisofDruReviewsBasedFinedEmotionAnainegyg-bonMloicrog作者姓名:敦欣卉专业:医学信息学研究方向:医学数据挖掘指导教师:张云秋教授培养单位:公共卫生学院2018年6月基于微博的药物评论细粒度情感分析-Revriews

2、FionAnalsisofDruinegainedEmotygBasedonM-icroblog作者姓名:敦欣卉专业名称:医学信息学指导教师:张云秋教授学位类别:学术硕士答辩曰期叫年6月工日未经本论文作者的书面授权,依法收存和保管本论文书面版本、电子版本的任何单位和个人均不得对本论文的全,部或部分内容进行任何形式的复制、修改、发行、出租、改编等有碍作者著作权的商业性使用(但纯学术性使用不在此限)。否则,应承担侵权的法律责任。吉林大学博士(或硕士)

3、学位论文原创性声明本人郑重声明:所呈交学位论文,是本人在指导教师的指导下,独立进行研宄工作所取得的成果。除文中己经注明引用的内容外,本论文不包含任何其他个人或集体己经发表或撰写过的作品成果。对本文的研宄做出重要贡献的个人和集体,均己在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期d邶年月日67中文摘要基于微博的药物评论细粒度情感分析目的:从数据挖掘角度出发,对微博进行细粒度情感分析,通过计算情感强度值将情感分为“乐、好、怒、哀、惧、恶、

4、惊、疑”八类,从而尽可能还原微博用户情感,并选取药物相关的微博进行实证,不仅初步探索了细粒度情感分析的可行性,还为消费者购买药品提供了决策支持,方便后续研究。方法:通过大量阅读文献,分析了目前国内外情感分析的主要方法及其利弊,确定了本文采用情感词典结合规则的方法进行情感分析。因此,本文补充了情感词汇词典并构建了一系列辅助词典来充分识别微博中的情感信息,力求情感分析的准确性。首先,基础情感词汇词典方面,在大连理工信息检索教研室构建的《中文情感词汇本体库》的基础上,结合梅家驹老师编写的《同义词词林》进行合并,

5、从而实现情感词汇词典的完善;其次针对网络用户在互联网的疑问情绪较多的事实,结合《中文情感词汇本体库》、《同义词词林》、新浪微博所构建的疑问词词表形成疑问词词典,并依据与《中文情感词汇本体库》中含有的词通过互信息法获得疑问词强度,实验证明本文构建的疑问词词典能够有效识别微博文本中的疑问情绪;再次考虑到社会化媒体平台中情感形式表达的多样性,本文选取了微博上常用的113个表情符号及筛选之后得到的90个网络用语,通过与《中文情感词汇本体库》进行比对及互信息法,获取其情感类别及强度,从而构建了表情符号词典与网络用语

6、词典;最后,考虑到对情感表达有修饰作用的词语,并且这些修饰作用的词语会对情感表达的强弱产生影响,因此本文在前人研究及《同义词词林》的基础上,构建了程度副词词表、关联词词表、否定词词表,并为程度副词词表、关联词词表赋予了权重。然后基于已构建的情感词典等结合制定的语义规则进行情感计算,从而得到每条微博的情感分类及情感强度。与以往传统的基于情感词典与规则的方法仅统计词频不同,本文在判定情感分类时,根据不同类别情感强度的不同而判定情感分类,并通过准确率(Precision)、召回率(Recall)、F值(F)三个

7、指标对两个方法进行了对比验证。结果:(1)通过对人工标注的明确分类为“疑”类的微博进行情感分析,本文构建的疑问词词典识别疑问类情绪的准确率为71.68%,明显高于一般词典识别疑问情绪的准确率2.51%,说明了本文构建的疑问词词典的有效性。(2)利用准确率、召回率、F值对本文提出的情感分类方法以及传统的基于情感词典词频统计的方法进行比较后,本文提出的方法在各情感类别的准确率和召回率较基于词频统计的传统方法均有所提高,说明了本文情感分类方法的有效性。(3)通过以药物相关微博数据为例进行实证,不仅探索了微博细粒

8、度情感分析的实用性,还为用户选购治疗同一疾病的药品提供了更多角度的选择从而支持购买决策。结论:本文通过构建疑问词词典识别用户“疑问”类情绪,并通过实证,验证了其有效性。此外,针对社会化媒体用户情感表达多样性的特点,本文构建了包括表情符号、网络用语等细粒度情感分析词典对药物微博进行细粒度情感分析,不仅将情感分为8类还给出情感强度,并且通过与传统方法的对比从准确率、召回率、F值三个指标说明了本文方法的有效性与优异性。关键词:细粒度

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。