基于中文微博的情感分类技术-研究

基于中文微博的情感分类技术-研究

ID:34186730

大小:3.00 MB

页数:65页

时间:2019-03-03

上传者:U-22505
基于中文微博的情感分类技术-研究_第1页
基于中文微博的情感分类技术-研究_第2页
基于中文微博的情感分类技术-研究_第3页
基于中文微博的情感分类技术-研究_第4页
基于中文微博的情感分类技术-研究_第5页
资源描述:

《基于中文微博的情感分类技术-研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

万方数据东北大学硕士学位论文AbstractWiththerapiddevelopmentofnetworktechnology,Weibo,asanewsocialplatform,hasgraduallypenetratedintoeveryaspectofpeople’Slives.Weiboisfullofusers’viewsandopinionstowardsproducts,entertainments,socialeventsandSOon,whichcontainsawealthofemotionalinformation.Analyzingusers’emotionalattitudeduringaperiodoftimeortowardsaparticulartopic,classifyingtheemotionscontaininWeiboeffectivelyhasgreatcommercialvalueandsocialvalue.Itnotonlyallowsbusinessmentoobtainusers’viewsinstantly,butalsoallowsgovernmentdepartmentstokeepabreastofsocialdynamics,listentothevoiceofthepeople,whichhasagoodmonitoringroleofpublicopinion.Inthisthesis,wewilldodeepresearchonChineseWeibosentimentclassification,includingsentimentpolarityclassificationandsentimentfine-grainedclassification.(1)Sentimentpolarityclassificationisstudied.WeclassifythesentimentofChineseWeibointopositiveandnegative,andimprovesometechnologythatinvolves.Firstly,informationgain,thetraditionalmethodoffeatureselectiondoesnotconsiderthefeatures’appearanceinintra-classandinner-class,tosolvetheproblem,weintroducetwofactors,concentrationratioanddistributedratio.Secondly,weconsiderWeibo’Scharacteristicswhenwecalculatethefeatureweight,wecombinethefeature’Semotionalinformationand10cationinformationwithtlletraditionalTF.IDFcalculationmethod.(2)Sentimentfine—gainedclassificationisstudied.WeclassifythesentimentofChineseWeibointosevencategories,includinghappiness,like,surprise,anger,sadness,fearanddisgust.Weanalyzeandimprovethetraditionalmethods.Firstly,weexpendstheexistingmulti·classemotionaldictionarytocompensateforitslackofwordscoverage.WemakeuseofWeibotrainingcorpustogeneratecandidatesentimentfeatures,proposeasentimentfeatureselectionTF—IDFmethodbasedonvariance.Thencalculatethefeature’scategoryandemotionalstrengthandadditintoIII 万方数据东北大学硕士学位论文Abstractthemulti.classemotionaldictionary.Secondly,wecalculatetheWeibofine-grainedsentimentscorebasedontheexpandedemotionaldictionary.IntheprocessofWeibosentimentfine—grainedclassification,wefirstlyclassifytheWeiboemotionintotwopolaritiesandthenintofine—grained,finallyproposeahierarchical-basedalgorithmforWeibosentimentfine—grainedclassification。Experimentalresultsshowthattheproposedsentimentpolarityclassificationmethodandsentimentfine—grainedclassificationmethodhaveabetterresultinaccuracy,recall,andFValuethantraditionalmethod.Keywords:featureselection;emofionaldictionary;ChineseWeibo;sentimentclassification.Ⅳ. 万方数据东北大学硕士学位论文目录目录独创性声明⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯I摘要⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.ⅡAbstract⋯.⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.⋯⋯.⋯⋯⋯⋯⋯.⋯⋯.⋯⋯⋯⋯⋯..Ill第1章绪论⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.11.1研究背景及意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯11.1.1研究背景⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..11.1.2研究意义⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..11.2国内外研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.21.2.1文本情感分类研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯21.2.2微博情感分类研究现状⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯41.3本文研究内容⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯51.4本文组织结构⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.6第2章情感分类相关技术⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯72.1主要研究方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯72.2文本表示模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯72.2.1向量空间模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..82.2.2布尔模型⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..82.3特征选择方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.3.1文档频率⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..92.3.2信息增益⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯92.3.3互信息⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯102.3.4卡方统计⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯1l2.4权重计算方法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯112.5文本分类算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯132.5.1朴素贝叶斯算法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯132.5.2K摄近邻分类法⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..142.5.3支持向量机⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯152.6本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..16第3章微博情感极|生分类研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯17.V一 万方数据东北大学硕士学位论文目录3。1微博特点分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯183.2微博数据预处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..193.2.1噪音处理⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.193.2.2中文分词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯203.2.3去停用词⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯2l3.3改进的信息增益特征选择⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯。2l3.3.1信息增益方法的不足⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯223.3.2信息增益方法的改进⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.223.4改进的TF.IDF权重计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯233.4.1TF.IDF方法不足⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.4.2TF—IDF方法的改进⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯243.5基于SVM的微博情感极性分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯303.6本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..32第4章微博情感细粒度分类研究⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯334.1多类别情感词典的构建⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..334.2多类别情感词典的扩展⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..354.2.1候选情感特征的生成⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯354.2.2情感特征抽取⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.374.2.3情感倾向及强度判定⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯394.3基于情感词典的情感细粒度分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..414.3.1副词对情感特征的影响⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯414.3.2微博情感计算⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯434.4基于层次的情感细粒度分类⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..454.5本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..48第5章实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.1实验基础⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.1.1实验数据来源⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.1.2实验环境⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯495.1.3实验结果评判标准⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.505.2微博情感极性分类实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..505.2.1实验思路⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯50—VI. 万方数据东北大学硕士学位论文目录5.2.2实验设计及结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯5l5.3微博情感细粒度分类实验⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..535.3.1实验思路⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯535.3.2实验设计及结果分析⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯535.4本章小结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯56第6章总结与展望⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯.。576.1论文总结⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..576.2进一步工作⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯..57参考文献⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯59致谢⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯⋯63 万方数据东北大学硕士学位论文第1章-织tee1.1研究背景及意义1.1.1研究背景第1章绪论21世纪以来,随着网络技术的飞速发展以及互联网技术的日益普及,互联网用户的数日呈现指数增长。据第33次中国互联网络信息中心(cNNIc)报告数据显示,截至2013年12月,中国网民人数已达到6.18亿,人们所处的社会正在发生着一场信息化的变革。随着Web2.0时代的到来,大量基于互联网的社交网络平台涌现出来,例如论坛、博客等,它们给人们的生活方式和社会运行方式带来了深刻的影响。互联网在很大程度上改变了人们表达方式,它不再仅仅是人们接受信息的媒介,更成为了人们发表观点,表现思想的重要平台。人们从被动的接受传统媒体到现在可以在网络上主动积极的发表自己的观点,极大的摆脱了传统媒体的束缚。越来越多的人愿意通过网络平台网站交流观点,分享生活。微博无疑是Web2.0时代最具影响力的代表产品之一。微博,即微型博客,是一个基于用户关系的社交网络,是传播、交流、获取信息的主要平台。与传统的博客相比,微博的文本内容更简洁,具有更强的实时性、更新性、互动性。2006年,美国推出的Twitter,是世界上第一个微博网站,也是世界上最具影响力的微博,从推出即进入了迅速发展阶段。在我国,2009年8月新浪网推出的“新浪微博”内测版,也标志着微博正式进入中国网民的生活。微博作为新兴的科技信息产物之一,问世以来,在我国得到了广泛的应用,在短时间内发展并拥有了大量的用户。目前,新浪微博已成为国内最受欢迎的微博平台,截至2013年12月底,新浪微博的注册用户规模已突破5亿人,其内容涵盖了社会、科技、体育、娱乐、公益等各领域。微博的出现,越来越多的用户愿意在微博上发表观点,表达自己的思想,分享自己的情感。微博以其强大的信息传播能力和公众参与度,已经成为许多重大事件消息公布的第一现场,消息传播的重要平台。1.1.2研究意义微博庞大的用户群体,使得微博平台可以在很短的时问内迅速汇聚海量的信息。微博的海量信息中包含着丰富多彩的内容,话题涵盖面广,不同使用者及不.1. 万方数据东北大学硕士学位论文第1章绪论同的使用目的使得这些内容看似杂乱琐碎,但却蕴涵着巨大的潜在信息价值。由于大部分微博内容都是用户原创,大部分微博信息都包含着丰富的主观因素,表达了人们的情感态度。这些带有情感倾向的微博的采集和分析技术已经成为企业及个人都十分感兴趣的内容。某一时间段内的微博情感,反映了网民在该时间段内的情绪状态,是社会舆情监控的有力工具,政府及有关部门可以根据微博的内容,了解网民的情绪状态,倾听不同阶层、不同生活领域的民众心声,对社会舆论起到及时的监控作用‘11。同时针对这些热点话题的讨论可以在短时间内凝聚网民的广泛见解,反映人们对某个热点事件的观点倾向,例如,2013年的“王菲李亚鹏离婚”、“周渝民金钟称帝"到今年的“昆明伤人”、“马航飞机失联”、“周一见”事件等等。针对微博话题的情感分类具有很强的商业价值。例如,在产品领域,消费者希望根据用户对产品的评价好坏来决定自己的购买意向【2】;生产商可以根据用户对产品的评价,从而对产品进行改进以提高其自身的竞争力;在电影领域,网友可以通过浏览针对某一电影的评论,对电影内容的概括进行了解,同时演员及导演也需要根据网友的影评反馈来对票房进行预测等。微博作为新兴的社交网络平台,其应用已经逐步渗透到人们生活的各个方面。对微博文本的情感进行分析分类,及时了解微博用户群体在某一时间段内或针对某一话题的情感态度,是十分有必要的。尽管微博内容简洁,篇幅短小,但其庞大的用户群体和规模,每天有大量的信息被发布、转载和分享,使得网络信息规模呈爆炸式增长,其信息量巨大且多种多样,如果仅依靠人工手段进行收集、整理是不现实的。如何依靠相关算法,使计算机智能化的对微博所包含的情感态度进行分类,成为当今非常有价值的研究领域,本文将对中文微博的情感分类技术做深入的研究。1.2国内外研究现状微博情感分类是文本情感分类研究的一个重要方向,其理论基础来源于文本情感分类。本节首先介绍文本情感分类的研究现状,然后对微博情感分类研究现状进行了介绍。1.2.1文本情感分类研究现状情感分类作为一个较新的研究领域,近年来越来越受到研究学者们的关注。.2. 万方数据东北大学硕士学位论文第1章绪论情感分类,也叫情感分析、观点挖掘,即对带有情感色彩的文本进行分析、处理的过程【3】。涉及自然语言处理、信息检索、数据挖掘等多个领域。A.Esulif41等学者将情感分类分为三个任务:a.对文本的主客观性进行判断(Determiningsubjectivity)b.对文本的情感倾向性进行判断(Determiningorientationpolarity)c.对文本的情感强度进行判断(Determiningthestrengthoforientation)本文将三类任务分别理解为主客观分类,情感极性分类和情感细粒度分类,接下来对三个任务做简要介绍。(1)主客观分类近年来,主客观分类是情感分类的一个热点研究方向。其目标是判断一个文本是主观的还是客观的。对于主客观的分类标准,目前还没有一个统一定论,多数的学者都是通过自身的理解进行判断。大部分都依据以下原则:原则1:文本中表达了对某一人或事的个人观点,属于主观文本。原则2:文本中流露了个人情感倾向,属于主观文本。原则3:句子表达了对未来人或事物的预测和期许,属于主观文本。.目前,主客观分类的主流研究方法是基于特征的分类方法。即选择能够有效区分主客观文本的特征来对主客观文本进行分类。其主要技术是分类特征的选取。wiebe【51等将代词、名词、形容词、副词等词性和句子位置作为主客观分类特征;Yaol6】根据文档中的标点符号、人称代词、数字等非词语信息来判别文本的主客观性。,爹主客观分类是主观性文本情感分类的基础工作。由于本文的情感分类的目标是微博文本,微博中的大部分内容都是原创的,具有强烈的主观色彩。因此,本文对微博文本的主客观分类不做深入讨论。(2)情感极性分类情感的极性分类是对主观性文本的进一步划分,是现阶段情感分类研究中多数采用的方法。它是将文本的情感分为正向情感和负向情感两种极性。正向情感是指人们对事物所持有的积极的态度,如支持、肯定、赞美、信任等。负向情感是指人们对事物所持有的消极的态度,如反对、仇恨、鄙视。厌恶等。针对情感极性的分类的研究很多,例如,Pang和Lil7】首次提出的将机器学习算法应用到情感分类中,以电影评论作为实验数据,采用NB,SVM,ME三种分类方法,将情感极性分为正向情感和负向情感。Agarwal提出基于单字、双字.3. 万方数据东北大学硕士学位论文第1章绪论和词性的复合特征抽取算法,实验表明使用该方法提取出的特征向量使用SVM和贝叶斯分类器分类效果相比其他算法要好[81。BespalovD【9】等使用图中的节点来表示文本,将情感极性相同的文本映射到图中,待分类文本与图中节点比较从而判断情感类别。文献【lo]根据情感词典,结合否定词识别和程度副词识别等技术,对不同领域的评论集进行分类,最终获得了较好的实验效果。王素格【1l】等人通过五种资源构建中文情感词表,提出了一种基于情感词表的加权线性组合的句子情感分类方法。何凤英【121等人提出基于语义理解的中文博客情感分析方法,以HowNet为基准构建基础情感词典,用词语相似度计算词语的情感值,同时在修饰词、语言风格等方面对情感倾向进行判断。(3)情感细粒度分类人类的情感是复杂多样并且不断变化的,只将情感类别划分为正向和负向并不能完全反映出人们的情感状态,因此,相关学者对正负情感进行了进一步细粒度划分。Quan等【131基于情感词来对中文情绪语料库中句子进行情绪识别。文献[141采用层次分类方法,先识别大类,再对同一级小类进行分类。将情感分为5个类别,分层训练SVM分类器。李静等【15】利用thayer模型,通过VSM模型计算情感词与情感类别的共现关系,将歌词的情感分类8大类。不同于主客观分类和情感的极性分类,情感的细粒度分类目前还没有统一的情感划分标准和分类方法。这方面的研究成果并不多,是亟待提高的一个领域,本文在后面的内容中对情感的细粒度分类问题进行了初步探讨。目前,普遍受到认可的情绪分类是由大连理工大学所构建的多类别情感词典【16】,它将情感分为基本情绪包括乐(happiness)、好(1ike)、惊(surprise)、悲(sadness)、恶(disgust)、怒(anger)、惧(fear)七大类。本文依据这七类情感,将正向情感划分为乐(happiness)、好(1ike)、惊(surprise)三类,将负向情感划分为悲(sadness)、恶(disgust)、怒(anger)、惧(fear)四类,以此标准对微博进行情感细粒度分类。1.2.2微博情感分类研究现状国外针对微博的情感分析技术起步的比较早,文献‘17。20l都是以Twitter上的微博为语料展开工作。Davidov和Tsur[17】等人利用50个标签和l5个笑脸符号作为情感标签,以此作为训练集,减少了入工标注的劳动,运用四种不同的特征选择方法,结合KNN分类算法来对tweets进行情感分类。Go和Bhayanill3】等人利用.4. 万方数据东北大学硕士学位论文第1章绪论表情符号标注tweets作为训练集,训练NB,ME和SVM分类器,提出了一种距离监督学习的分类方法,实验准确率达到80%。Wang[19】等人构建了基于标签共现的图模型,提出了利用每条tweet中的标签进行主题情感分类的方法。MakotoOkazaki等人120】利用微博的实时特性,提出了一个重大事件告知模型,以日本地震为例,用“地震”“晃动”两个词为关键字,以5s为时问间隔,运用SVM算法对提取来的tweets实时数据进行情感分类,实验证明,该模型在重大事件传播方面要快于新闻报道。SubhabrataMukherjee[2l】提出了一种针对twitter的情感分析的轻量级方法,通过对情态动词、否定词、连词等虚词的含义的考察,结合常见的N.gram、词性等特征,分别利用词典与SVM分类器,实现了情感极性判别准确率的提升。中文微博近两年来得到广泛的关注。谢丽星[ZZl在特征选择上采用表情、情感词典、情感短语、上下文四种主题无关的特征共用,基于SVM算法对微博消息进行了情感分类,准确率达到66.467%。文献【23】结合网络新词和基础情感词,构建了包括基础情感词典、表情符号词典、否定词词典和双重否定词词典四个词典,同时融合语言学特征和微博情感表达特征,提出了一种新的基于极性词典的情感分类方法。目前,中文微博的情感分类正处于起步阶段,针对这方面的研究并不多,而且大部分都是针对微博的情感极性分类,即将微博文本的情感分为正向和负向,对微博的情感细粒度分类的研究也是一个有待研究的领域。1.3本文研究内容传统的文本情感分类主要处理的是规范的文本,而且对情感主要进行的是正负向的极性分类。对于中文微博这种篇幅短小,主观色彩强烈、主题单一的短文本来说,传统的文本分类方法并不完全适用于微博情感分类,同时,情感的复杂多样性要求我们对情感的细粒度分类做深入探讨。因此,本文主要中文微博文本情感分类相关技术进行研究,包括情感的极性分类和情感的细粒度分类。主要研究内容如下:(1)对信息增益特征选择方法进行了补充。传统的信息增益特征选择方法在进行特征选择时,考虑了特征项出现和不出现的情况,但并没有考虑特征项在类内和类间出现情况,本文引入类间集中度和类内分散度两个因子,对信息增益方法进行补充。.5. 万方数据东北大学硕士学位论文第1章绪论(2)对TF—IDF权重计算方法进行了改进。传统的TF—IDF权重计算方法主要是基于统计的,忽略了特征项的语义信息。在微博文本情感分类中,情感特征和位置特征对特征项的权重影响不可小视,本文将特征项的情感特征和位置特征融入特征项的权重计算过程,对TF—IDF进行了改进。(3)对现有的多类别情感词典进行了扩展。为了弥补现有的多类别情感词典在词语覆盖面上的不足,本文利用微博训练语料生成候选情感特征,提出了基于方差的TF—IDF情感特征选择方法,并对选择出的情感特征计算倾向和强度,将其补充进情感词典。(4)根据扩展了的多类别情感词典,对微博情感细粒度情感值进行计算,提出了基于层次的微博情感细粒度分类算法。1.4本文组织结构本文共分为6个章节,论文结构和各个章节的主要内容如下:第1章阐述了本文的研究背景及意义,同时对国内外相关技术的现状进行了简要介绍。第2章介绍了情感分类过程中使用到的关键技术,包括文本表示模型、文本特征选择、特征权重的计算及三个经典的分类算法。第3章主要研究微博情感的极性分类,提出了文本特征选择和权重计算过程的改进算法,将改进后的算法应用于机器学习算法,对微博情感进行极性分类。第4章主要研究微博情感的细粒度分类,提出基于方差的TF—IDF方法扩展多类别情感词典,利用情感词典对微博J隋感进行细粒度分类,进一步提出基于层次的微博情感细粒度分类算法。第5章进行了实验测试,从查准率、查全率和F值三方面对结果数据进行分析。第6章对全文进行总结,指出了现有理论的一些不足,并提出了未来的改进方向。.6. 万方数据东北大学硕士学位论文第2章情感分类相关技术2.1主要研究方法文本情感分类的研究涉及到机器学习、信息检索和数据挖掘等多个领域知识。目前主流的情感分类研究方法主要有两种:基于情感词典的分类方法和基于机器学习分类的方法阱】。(1)基于情感词典的情感分类基于情感词典的情感分类是文本情感分类中最直观的方法。主要是根据基准情感词典和文本的语义信息来进行情感词性加权,其关键技术是情感词典的构建和情感词的情感信息加权。目前常用的情感词典有:英文的WordNet,中文的HowNet情感分析用词语集,NTU情感词典等。基于情感词典的方法是一种无监督的学习方法[251,对于正向情感信息和负向情感信息差距明显的时候具有很好的实验效果,然而对于正负向情感信息个数相同、情感信息模棱两可的情况,其情感分类的准确率还有待提高,同时基于情感词典的情感分类方法对情感词典中情感词语的覆盖范围要求比较高,情感词典的范围很难涵盖各个领域,因此,具有一定的局限性。(2)基于机器学习的情感分类基于机器学习的情感分类,将情感分类问题视为传统的文本分类问题。基于机器学习的情感分类,其关键在于选择合适的特征来对文本进行表示,雾并运用相关的分类算法对特征进行训练和分类口61。主要涉及到的技术是分类特征的抽取和分类算法的选择。基于机器学习的分类方法不依赖于情感词典,不会受到情感词典规模的限制,因此被广泛应用于文本的情感分类中,是目前最普遍使用的情感分类方法。然而,该方法需要大量人工标注好极性的文本训练语料,对标注语料的准确性和规模要求很高。2.2文本表示模型在对文本进行分类之前,首先需要将文本从无结构的原始形式转化为结构化数据,以便计算机能够理解识别,将一个非结构化的文本转化为结构化文本的过程,称之为文本表示。目前,常见的文本表示模型是向量空间模型(VSM)和布尔模型(BooleanModel)。.7. 万方数据东北大学硕士学位论文笫2章情感分类相关技术2.2.1向量空间模型向量空间模型(VectorSpaceModel,VSM)是由著名学者Salton于1975年提出的文本表示模型,它以空间上的相似度表达语义上的相似度,是最常用的文本表示模型【271。其主要思想是:将文本看成是一组特征项的集合,对于每一个特征项,根据其对文本的表示程度赋予一个权重。从而将文本表示成一个带权重的特征项的集合。例如,一个文本d可以抽象表示为一个向量:d={fl:wI,t2:w2,...,乙,%)(2.1)其中,t代表文本d中的一个特征项,%为I的权重,l≤后≤n。通常公式2.1可以简记为公式2.2形式。d={Ⅵ,w2,...,%)(2.2)特征项在文本的权重心通过某种权重计算方法计算而来,心越大,证明该特征项对文本的反映能力越好。向量空间模型将每个文本表示成空间中的一个向量形式,这样可以通过计算向量间的距离来衡量两个文本之间的相似度。向量空间模型有效的降低了文本之间相似度计算的复杂性。但却没有考虑到特征项语义、所处位置等信息,对文本分类的精度有一定的影响。2.2.2布尔模型布尔模型(BooleanModel)建立在集合论和布尔代数基础上,是VSM的一个特例,是最简单的文本表示模型。主要思想是将文本看成一组特征项集合,用0和1表示特征项的权重1281。一个文本被表示一个特征向量,如公式2.3所示。d={w1,wz,...,%)(2.3)在布尔模型中,每个维度代表文本的一个特征项,坼表示该特征项的权重,每个特征项的权值只能是0或1,若为1则表示特征在该文本中存在,0则表示特征在该文本中不存在。布尔函数可以表示成公式2.4的形式。wk={:,篇亿4,210f。在文本不中出现u—J.8. 万方数据东北大学硕士学位论文第2章情感分类相关技术布尔模型的主要优点就是文本表示方式简单,只需要考虑特征项在文本中是否出现。然而,由于特征项的权重只有O,1两种表示,缺乏定量的分析,不能够完全反映出文本和特征项相关程度的差异性,使得特征在文档中的重要程度无法衡量。2.3特征选择方法生成的文本表示模型的向量空间维度很大,有时达到几万维甚至几十万维。如果将它们作为机器学习算法的输入数据,将产生大量冗余信息,不但增加计算的时间,而且会导致无法准确提取文档类别信息,降低分类准确率。因此,对向量空间进行维度约简,提高分类器的精度,是十分必要的。这就要用到特征选择技术,特征选择在文本处理过程中是非常重要的一个步骤,分类结果的准确率相当大的程度上依赖于特征选择的方法。常用的特征选择方法有:文档频率,信息增益,互信息,卡方统计量等【29】。2.3.1文档频率文档频率(DocumentFrequency,DF)是指在整个文档集合中,出现某一特征项的文本的数量占文本总数的百分比。其计算方法如公式2.5所示。DF(归蜊鬻嚣塑(2.5)文档频率反映了该特征在文档集合中的覆盖范围。在应用文档频率进行特征选择时,通过设定阈值吟,吼]来选择特征。当该特征的DF(t)<19l时,说明该特征是低频词,它们不含或含有少量的类别信息,去掉该特征;当该特征的DF(t)>B时,说明该特征对于文本的区分度不高,也去掉该特征。只选择DF(t)∈阻,Oz】的特征项作为特征选择结果。文档频率特征选择方法形式简单、计算复杂度低,是最简单的特征选择技术。然而,有时候很多低频词语也都包含了表征文本的大量信息,将这些词去掉会影响分类结果[301。2.3.2信息增益信息增益(InformationGain,IG)方法以信息论为理论基础,是文本分类中常用的特征选择方法,在机器学习领域中被广泛使用【311。信息增益的含义是:含..9.. 万方数据东北大学硕士学位论文第2章情感分类相关技术有特征项≠对整个分类的贡献程度与不含特征项t对整个分类的贡献程度之差。信息增益值越大,该特征项含有的类别信息越多,越适合做分类特征。特征项f的信息增益计算公式如公式2.6所示。佑(f)=一善P(e)1。g尸(c:)+JP(f)善P(c:If)loge(c,If)+尸(;)善P(crIf)1。g尸(cjl;)f2.61-P(忡(删。g错+P(酏)P(嘶)log帮其中,k为文本类别个数;尸(Cf)表示文本属于类别cf的概率;P(t)表示特征项f在文本中出现的概率;P(C』It)表示含有特征项f的文本中属于类别G的概率;尸O)表示特征项t在文本中不出现的概率,P(eI,)表示不包含特征项t的文本中属于类别e的概率。在特征选择过程中,本文计算每个特征项的信息增益值IG,并设定一个相关阈值日,当特征项的IG大于9时,说明该特征项对整个分类的贡献程度大,保留该特征;否则,将该特征移除。信息增益同时考虑了包含和不包含特征项的文档为文本分类提供的信息,具有较好的全局特征选择效果,是最广泛应用于文本特征选择的算法。本文在情感极性分类中,使用信息增益对文本进行特征选择。然而,信息增益并没有考虑特征项在不同类间、同一类内的分布情况,下文本文将针对其不足进行改进。2.3.3互信息互信息(MutualInformation,MI)是信息论里一种有用的信息度量,用来描述两个事件集合之间的相关性‘32l。在特征选择过程中可以用来衡量特征项和类别之间的共现关系。令Ⅳ表示文档总数,Ⅳ=么+召+C。4、曰、C表示文档频数,其具体含义如表2.1所示。表2.1互信息参数含义Table2.1MeaningofMlparameterst1ABffC一特征项‘与类别q的互信息计算方法如公式2.7所示。.10一 万方数据东北大学硕士学位论文第2章情感分类相关技术MI(t,,Cj)=log面而Ax石N面(2.7)特征项对于某类的互信息值越大,特征项与该类别之间的依赖程度越大,那么该特征项就越重要,它被选择作为文本分类的特征的可能性也就越大。当互信息值埘(‘,C,)=0时,说明特征项与类之间完全独立。由于低频词的互信息较高频词的互信息高,因此互信息方法更容易选择低频词作为分类特征。2.3.4卡方统计与互信息类似,卡方统计(CHI)也用来衡量特征项和文本类别之间的关联程度‘331。与互信息方法不同之处在于,和C之间符合具有一阶自由度的卡方分布。设Ⅳ表示文档总数,N=A+B+C+D。么、B、C、D表示文本的数量,其具体含义如表2.2。表2.2卡方统计参数含义!垫!皇兰:兰丛呈丝i竖旦兰竺旦!巳堂垒坐堕旦竖tAB‘CD卡方统计量的计算公式如公式2.8所示。伽(I,q)=酉丽面Nx酉(AD石-B面C)z币而(2.8)特征项对于某一类别的卡方统计值越高,它与该类的关联程度就越大,所能提供的类别信息也就越多,被选择作为分类特征的可能性也就越大。当CHI(t,,cj)=0时,特征项与类之间完全独立。卡方统计是归一化的统计量,它只考虑了特征项t在文本中是否出现,没有考虑它在文本中出现的次数,导致高频词和低频词之间的区别难以区分。2.4权重计算方法在对文本进行特征选择之后,还需要计算各个特征项的对文本的表示程度,即进行特征项的权重计算。目前,最普遍使用的权重计算方法是词频一逆文档频率(TermFrequency-InverseDocumentFrequency,TF—IDF)。 万方数据东北大学硕士学位论文第2章情感分类相关技术TF—IDF权重计算方法的主要思想是:特征项在文本中出现次数越多,该特征项越重要,它的权重越大;特征项在越少的文本中出现,该特征项越重要,它的权重越大。TF:词频,是指一个文本中某一特征项在该文本中出现的频率;DF-文档频率,是指含有某一特征项的文本占文本总数的比例;IDF:逆文档频率,DF的倒数形式;TF越大,说明特征项在一篇文本中的出现频率越高,该特征项能够较好的表示该文本;DF越小,IDF越大,说明该特征项在其它文本中出现的频率越小,该特征项对不同文本具有较好的区分能力。因此,TF.IDF将TF和IDF综合考虑,利用TF和IDF的乘积作为权重计算结果。TF—IDF值越大,权重越高,该特征项越重要。TF的计算公式如公式2.9所示。丁F:壁堑堕!垄奎垄堂塑塑达塑r29、"V2—i雨葡面蕊不『一u∥J~”文本i特征项总个数P“7IDF的计算公式如公式2.10所示。IDFj=log二(2.10)刀,其中,胛,为包含特征项‘的文本的个数。Ⅳ为文本的总数。TF—IDF的计算公式如公式2.11所示。rFdDF,2觋×,D巧2玛×log争叫(2.11)卢是为了避免文档频率等于0引入的系数,通常/3=0.5。为了使得特征项的权重值TF,jIDFj∈【o,1】,对上式2.11进行归一化处理,那么,特征项t在_中的权重可以表示为公式2.12形式。rF,JDFj=刚og(苦埘f2.12)TF.IDF算法既考虑特征项的局部分布特性,也考虑了特征项的全局分布特性,是最广泛使用的权重计算方法。本文在后面的内容中使用TF—IDF计算方法一12. 万方数据东北大学硕士学位论文第2章情感分类相关技术对微博文本进行权重计算,同时针对微博的特点和情感分类的具体应用,对TF.IDF方法做相应的改进。2.5文本分类算法将训练集合中的所有文本经过特征选择、权重计算等步骤表示为特征向量后,就可以训练分类器,构建分类模型,然后利用该分类模型将待测试的文本映射到某一特定类别。本节介绍文本分类的三个经典算法:朴素贝叶斯分类算法、KNN分类算法和SVM分类算法。2.5.1朴素贝叶斯算法贝叶斯(Bayes)学习算法是一种典型的基于统计方法的分类模型,它以贝叶斯定理为基础,结合观测数据的先验知识,来评估某样本最终属于某一类别的可能性。朴素贝叶斯分类(NaiveBayesClassifier)是最常用的贝叶斯学习算法之一,它通过建立概率生成模型,计算出一个文本属于每个类别的概率值,选择概率最大值所在的类别作为该文本的类别标签,以此实现对文本的分类。朴素贝叶斯分类是一种简单有效的概率分类方法。朴素贝叶斯分类器的“朴素”是指各属性之间的条件独立性假设【341。所谓条件独立性假设,是指每一个属性对给定类的影响独立于其他属性。设训练集文档总数为N,类别集合C={Cl,G,...,G),一个文本d用VSM模型可以表示为d={w1,w2,...,%),则d属于类别c,的条件概率可以表示为公抛.13形式。尸(qd)=—P(d1Ig):孑·厂e(cj)(2.13)(1)尸(C,)表示文档集合中,属于类别c,的文档所占的概率。尸(C,)计算方法如公式2.14。P(q):墅型燮N(2.14)(2)P(d)表示文本d在文档集合中出现的概率。因为每个文本在集合中出现的概率是相等的,因此尸(力是一个常数。(3)P(alC,)表示文本d的条件概率,它可以表示为公式2.15形式。.13. 万方数据东北大学硕士学位论文第2章情感分类相关技术P(dlCj)=P(Wl,W2,w3,...,WnIq)=lq尸(w1wi,w2,w3,...,wI小q)(2.15)i=1由于朴素贝叶斯分类算法的条件独立性假设,各个属性之间是相互独立的。那么有如下公式2.16和公式2.17成立。P(wjwl,w2,w3,...,w书q)=尸(_lcj)(2.16)P(dlCj)=nP(彬lCj)(2.17)i=1根据公式2.17,可以将式(2.13)表示成公式2.18形式。I-I尸(wIq)·P(q)尸(C,Id)=尸(d)(2.18)选择使得公式2.18最大化的类别作为即文本d的类别标签。由于P(柳是常数,最终的类别C可以由下式2.19判断:∞argm¨ax以Cf)县P(wjc,)(2.19)朴素贝叶斯算法的主要优势之一计算速度。由于条件独立性假设,使得算法的时间复杂度较低。然而,朴素贝叶斯是以条件独立性假设为前提,在实际应用中,文本属性之间的依赖关系是不可能完全避免的,因此,它在准确性方面相对弱于复杂的学习算法。2.5.2K最近邻分类法K最近邻分类法,KNN(K-Nearest—Neighborclassifier),是一种经典的统计模式识别方法,也是最广泛使用的分类算法之一。20世纪50年代由Covert和Hart首次引进【35J。该算法的主要思路是当给定一个待分类的数据时,计算待分类数据与训练数据集合中每个数据的距离,找出最接近该数据的k个训练数据,即所谓的k个“最邻近”。如果未知数据的k个最近邻数据中,大多数的数据都属于某一类别,那么该数据将被指派到该类别。K最近邻分类法使用基于距离的比较,将文本表示成向量形式,通常用两个向量之间的余弦距离来衡量邻近性。文本d,和d,的相似度计算公式为:.14. 万方数据东北大学硕士学位论文第2章情感分类相关技术碱归s92丽dt·dj2赫w,k·wj,㈣其中,sgm(a,,d,)表示文档Z和d,之间的相似度。N表示特征项个数。%表KNN算法思路简单,由于它只跟很少量的相邻的样本有关,所以它能够较好的避免样本不平衡所带来的问题。同时,由于KNN算法主要关注于样本与样本之问的距离,这样减少了特征选择过程对分类结果的影响。然而,KNN算法的缺陷在于,每个待分类的样本都要与训练集中的所有样本进行相似度计算之后,才能够选出k个最近邻,当训练样本的空问较大时。计算量十分庞大,分类速度慢。很难满足用户的需求。它在训练数据较小情况下,实验精度较低,因此不适用于小样本情况下的分类。2.5.3支持向量机支持向量机(SupportVectorMachine,SVM),由Vapnik等人在1963年提出,它是以统计学理论的VC维理论和结构风险最小原理为基础的机器学习算法。支持向量机是一种监督学习技术,主要用于解决二分类问题,近年来被广泛应用于情感分类。利用SVM解决二元分类问题,其目标就是在训练样本中寻求最优分类超平面月。所谓最优分类超平面,即该分类超平面可以将训练集中的数据分开,同时使两类数据之间的分类间隔最大。设给定的数据集D={(t,舅)},其中蕾为一条训练数据,乃是蕾所属类别标号,y/∈{一l,+1)。SVM最优分类超平面可以定义为公式2.21形式。日:wex+b=0f2.21)其中,x是一条训练数据,矢量W和常数b需要通过对训练数据学习得到。如图2.1所示。图2.1中,实心圆和空心圆分别代表两个不同的类另lJ+l和.1,H是最优分类超平面。q和马是平行于H且距日距离最大的两条直线。落在q和%上的点称为支持向量,支持向量是最难分类的元组,并且给出最多的分类信息。最优分类超平面日只由和离它最近的支持向量机决定。一15. 万方数据东北大学硕士学位论文第2章情感分类相关技术141图2.1SVM分类原理Fig.2.1SVMclassificationprinciple在SVM中,q和呸满足公式2.22。,.=w.畎i01y/=4-1(2.22)厶‘:W·Xi+b≤一1以=一1、7为使.,H。和皿之间的距离2/ll,q12最大,问题可以转化为寻找合适的向量w和偏移量6,使11w旷/2最小。即:jmin制12(2.23)【sJ.yi(w*t+6)≥O(i=1,2,...n)支持向量机具有扎实的数学理论基础,核函数技术很好的解决了“维数灾难”的问题,使得算法的时间和空间的复杂度与特征空间维度无关。另外,最优分类超平面仅由支持向量决定,若去掉支持向量之外的其他数据,分类性能不会受到影响。相对于其他分类方法,SVM在解决小样本、非线性及高维模式识别问题中表现出很多特有的优势。2.6本章小结本章主要介绍了情感分类的相关概念及技术,包括:情感分类研究的基本任务,两个文本的表示模型,四个文本特征的选择方法、TF—IDF权重计算方法及三个经典的文本分类算法。为下文做了基础知识的铺垫。.16. 万方数据东北大学硕士学位论文第3章微博情感极性分类研究对于微博来说,由于大部分的微博都是用户原创,其主观性很强,因此,本文在微博的情感分类研究过程中,不考虑客观性文本,只考虑主观性文本,首先对主观性微博情感进行极性分类,而后对正负情感进行进一步细粒度分类。本章主要介绍微博的情感极性分类方法,微博的情感细粒度分类方法将在第4章具体讨论。情感极性分类,即将情感分类正向情感和负向情感两个类别,根据2.1节的介绍,机器学习近年来被广泛应用于情感的极性分类研究中。基于机器学习的情感分类方法将情感分类视为文本分类问题,根据句子中所含的上下文特征对其进行正负情感分类,不会受到是否包含情感词语的影响。相比于基于情感词典的方法,机器学习在情感二元分类研究中取得了较好的效果,国内外已有许多研究表明了机器学习方法的优良性z日1匕l-,【361,因此,本文在情感极性分类过程中采用基于机器学习的方法。基于机器学习的情感极性分类流程主要分为以下几个过程:文本噪音处理、中文分词、特征选择、特征权重计算、分类器的训练和使用,其整体思路如图3.1所示。测试样本i数据预处理l特征选择i计算特征权重l【用训练结果对测试集进行分类J图3.1基于机器学习的微博情感极性分类过程Fig.3.1Weibopolarityclassificationbasedonmachinelearning.17. 万方数据东北大学硕士学位论文笫3章微博情感极性分类研究如图3.1可以看到,基于机器学习的情感极性分类就是在特征空间上通过机器学习算法构造情感分类器,实现文本的情感分类的过程‘371。想要实现基于机器学习的微博情感极性分类,需要主要解决三个问题:一是如何对微博文本进行特征选择。二是如何对微博文本进行规范化表示,即特征项权重计算问题。三是如何将分类算法实现并应用于微博的情感极性分类。本章将针对这三个问题做相应的研究。本章的组织结构如下:第一节对微博特点进行分析,第二节针对微博的特点对其进行数据预处理,第三节分析微博文本特征选择方法,对传统的信息增益方法进行了改进,第四节根据传统的TF.IDF权重计算方法,在其基础上提出了基于情感信息和位置信息的TF.IDF改进算法,第五节介绍了基于SVM的微博文本情感分类的流程。3.1微博特点分析微博自问世以来,极大的改变了人们生活,它能够在短时间内汇集大量用户在某一时间段内的情绪状态或对某一事件的观点、看法。微博集成了博客、论坛等传统社交网络的许多优点,相较于传统的文本,微博又有其独特的形式,可以概括为以下特点:(1)内容简洁性。不同于传统的博客、论坛等文本,微博的内容一般被限制在140字符以内,根据训练语料对微博长度进行统计结果如图3.2所示。从图中可以看到,微博文本长度在0到40个字符的居多,其中,10到20字符的最多。微博平台要求用户使用简洁的语言文字表达自己的情感,篇幅短小精悍,内容简单,表达形式不受限制。图3.2微博内容长度统计Fig.3.2LengthofWeibotext.18. 万方数据东北大学硕士学位论文第3章微博情感极性分类研究(2)风格多样性。微博的形式和风格不受任何约束,除了传统的文字信.g#l-,微博用户可以采用多种表达形式,例如,表情符号、网页链接、图片、音乐等。微博的绝大部分内容都是用户自己发表的,其写作方式相比于传统的博客自由许多,用户不需要考虑诸如标题、主题等内容,只需用只言片语来记录自己的所见所闻所想。语法、文字的不规范性随处可见,诸如省略主语、网络流行语、错别字等。(3)即时交互性。微博为用户提供了一个与他人分享的平台,人们乐于将自己的生活感悟,身边的奇闻异事等通过文字、图片、链接,即时分享到网络中。用户发布的内容会被即时同步到粉丝的微博里,被粉丝浏览到,用户之间可以随时通过回复、转发、评论等来进行互动。用户可以在一条微博的任意位置通过“@+用户名”提到其它用户。在默认条件下微博是对外开放的,允许其他用户浏览转发评论等操作,用户也可以设置权限对指定人开放。(4)传播病毒性。由于微博上会有许多“关注”、“粉丝”关系,通过关注与被关注,结成了一个庞大的消息传播网络。微博的转发功能更大大加速了微博信息的传播,所以微博上的信息传播的更广泛,更迅速,一传百,百传万,一条消息能在很短时间内大规模扩散,呈现“病毒式”传播形式。3.2微博数据预处理根据3.1节对微搏特点的分析,可以看到,针对微博的数据预处理不同于传统文本,基于中文微博的情感分类给传统的文本分类和情感分析技术慧来了巨大的挑战,需要根据微博的数据特点,对传统的文本数据预处理方式进行策略上的调整。本文对微博的数据预处理过程主要包括噪音处理、中文分词及停用词处理三个阶段。3.2.1噪音处理微博为用户提供了多元化的表达形式,除了传统的文字信息之外,一条微博还包含了很多附属信息,例如以下这条微博:嫡子英雄溺塞部电视剧好高质素,好久都没有看过这么好看这么喜欢的剧集了@⑨_p感觉每一集都像电影一般,有质感又触碰人心固周渝民http:/tl。cnISsgnTqV{0秒辩来自_jl|i狗烹窿涮掩嚣摧广}惑{转发}姣藏l译沧图3.3一条微博例子Fig.3.3AnexampleofWeibo一19— 万方数据东北大学硕士学位论文第3章微博情感极性分类研究根据上图可以看到,除了文字外,一条微博中还包括用户名、URL链接,表情符号、图片、“@”、标签符号“拌”等。在对微博进行分词处理之前,需要对获取的微博文本进行噪音处理,去掉与情感分类无关的冗余信息。(1)超链接在微博的表达过程中会经常出现,如例子中的http://t.crd8sgnTqv。微博的优势在于即时的共享消息,链接内容通常是新闻、视频等客观事实,以便其它用户能够通过链接直接浏览到相关内容,因此,超链接对该条微博的情感贡献不大。本文在微博的数据预处理过程中将过滤掉以http开头的消息链接,更好对数据进行清理。(2)获取到的微博数据中往往含有微博ID、发表日期之类的数字,这些数字内容只反映了一定的客观事实,不包含与情感分类相关信息,所以本文将微博中的数字过滤掉。(3)在微博文本中,“@+用户名”可以用来点名某人,引起其关注。“抖主题{6f”来生成话题。这些标签符号在微博文本中只是起到辅助作用,对于情感分类研究中没有实际价值,因此,在文本预处理过程中将其过滤掉。3.2.2中文分词中文分词是中文文本预处理过程中非常重要的部分。中文文本与英文文本不同,英文文本以空格作为词与词之问的间隔,单独的词可以独立表达一个意思,而中文文本每个句子是连续数据的字序列,每个词语没有明显的标志,正确的进行中文词语的识别需要运用相关的分词技术,将文字序列转化成一系列词语的集合。目前针对中文分词的算法有很多,常用的分词算法有基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法等。针对微博的分词,除了传统的文本信息外,还需要考虑如何处理表情符号。获取来的微博中的表情符号用中括号加文字的形式来表示,例如表情②,对应文本为“[悲伤】”。许多研究为了方便分词过程,大多只是考虑微博中的文字信息,而将表情符号作为噪音忽略掉。然而,用户使用的表情符号可以更直接、更形象生动的传达用户的情感和态度信息,它们在相当大的程度上反映了用户的情绪状态,为情感分类提供了有利帮助【381。许多利用文本内容无法确定情感信息,可以通过表情符号判断。例如句子:“我的,tL,都碎了[伤心】。”在进行中文分词处理后,“心”和“碎”两个字被分隔开,无法识别“心碎”的含义,但通过表情符号“『伤心1”可以判断句子表达的是负向情感。因此,在分词过程中,本文将表情符号视一20. 万方数据东北大学硕士学位论文第3章微博情感极性分类研究为一个词语来识别。目前的分词技术已经很成熟,有许多可靠实用的分词的系统,如斯坦福大学的中文分词器,哈尔滨工业大学社会计算与信息检索研究中心研制的LTP,北京理工大学自然语言研究组的NLPIR汉语分词系统,中国科学院开发的ICTCLAS开源分词系统等。本文采用中国科学院开发的开源分词系统ICTCLAS2011(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)分词系统【39】进行中文分词,该分词系统的综合性能十分突出,性能稳定,不仅分词速度快,而且准确率很高。同时ICTCLAS2011支持用户自定义词典并可以人工设置优先级,这为本文进行情感分类提供了方便。我们将本文构建的表情符号词典和网络流行语词典导入ICTCLAS2011,并对这两项词典设置高优先级,以便能够对表情符号和网络流行语进行有效分词。3.2.3去停用词停用词是指经常出现,但对分类有没有太大实际意义的词语。它们在句子的结构和语义表达上不可或缺,但对分类提供的有用信息很小,甚至会降低分类的准确率。为了减少冗余信息对于分类效果的影响,在文本预处理过程中应该将停用词过滤掉。在主题分类的数据预处理过程中,通常依据《中文停用词表》,将对分类没有区分能力的词作为停用词过滤掉,缩减冗余信息,减少不必要的开销。对于文本的情感分类,具有感情色彩的词汇对于分类有重要的作用,而《中文傣用词表》中有很多词语都是情感词汇,因此不能使用传统的去停用词所依据的《中文停用词表》。在文本情感分类中,通常认为包含情感的词性有名词(n)、动词(v)、形容词(a)、副词(d)、叹词(e)、代词(r)六类,因此本文依据词性对分词后的数据进行过滤,将不属于这六类词性的词语作为停用词过滤掉。3.3改进的信息增益特征选择经过微博去噪、分词和停用词处理后,接下来要对文本进行特征选择。特征空间中包含了微博文本集合数据处理后的所有词语,如果将特征空间中所有词语都作为向量空间模型的特征,特征向量的维数是非常庞大的。同时,由于微博文本最多不超过140字符,一条微博通常只有十几个或几个词语,这将使得特征向量上大部分维度上的值为0,导致特征向量数据稀疏。另外,很多词语对于情感.21. 万方数据东北大学硕士学位论文第3章微博情感极性分类研究类别的区分没有太大意义。因此我们必须对特征空间进行降维,保留能够准确反映文档的特征,剔除与分类无关或作用不大的特征。这就要运用到特征选择技术。特征选择是微博情感分类的关键技术之一,高辨别力的特征能显著提高分类的效果。3.3.1信息增益方法的不足第2章2.3节介绍了一些常用的特征选择方法,信息增益作为一种有监督的特征选择方法,在大量的研究中呈现出良好的性能。有研究表明【4们,信息增益特征选择方法是目前文本分类性能最好的特征选择方法之一。因此,本文选择信息增益作为微博文本特征选择方法。然而,本文发现在实际应用中,信息增益存在着一定的不足之处。我们知道,集中出现在某个类中,而在其他类中出现次数很少的特征项,对分类具有越大的作用;同一类的各个文本中分布越均匀的特征项,对分类具有越大的作用。传统的信息增益方法只计算了特征与各个类别之间的相关性,而并没有考虑特征项在不同类间、同一类内的分布情况,然而,特征项在类间和类内的分布情况在一定程度上也影响了特征项对文本的表示程度,是特征选择过程中不应该被忽视的因素。3.3.2信息增益方法的改进接下来本文对信息增益方法的不足之处进行改进。本文考虑到特征项在不同类间和同一类内的分布情况对特征选择的影响,引入类间集中度(CR)和类内分散度(DR)两个因子。(1)类间集中度(CR,concentrationratio):用来表征特征项在某一类别的文本集合中的集中程度。特征项越集中于文本集合中的某一类,该特征项所带有的类别信息越多,表征该类别的能力就越强。本文用特征项在某一类中出现次数占特征项在整个文本集合中出现次数的比例来表示特征项t的类间集中度,表示成公式3.1形式。CR(c,m=丽嚣‰(3.-)(2)类内均匀度(DR,distributedratio):用来表征特征项在某一类别中的分散程度。特征项在某一类别中的分布越均匀,该特征项所带有的类别信息越多,表征该类别的能力就越强。本文用在某一类中,出现特征t的文本数量占该类别.2,. 万方数据东北大学硕士学位论文第3章微博情感极性分类研究中总的文本数量的比例来表示特征项f的类内均匀度,表示成公式3.2形式。嘲力=≤筹n2,醐)删CRDR俐帆肛)log等忡(一tl撇耵)log等(3.3)根据特征选择过程,本文提出了改进的信息增益特征选择算法,具体步骤如算法3.1所示。算法3.1改进的信息增益算法Algorithm3.1Improvedinformationgainmethod对微博文本进行特征选择文档集合T特征项集合Features扫描微博t∈r对微博t去噪音处理,中文分词,去停用词,得到结果序列words对于每个word∈words,将word加入特征项集合Features若T扫描完成,执行Step5,否则执行Step1。扫描Features中的每个特征项根据公式2.6,公式3.1,公式3.2计算其信息增益IG,类间集中度CR,类内平均度DR运用公式3.3计算得出改进后的信息增益值weight。若Features扫描完成,执行Step8,否则执行Step5将特征项的信息增益值从大到小进行排列,保留Features前N个特征项,返回Features,算法结柬3.4改进的TF.IDF权重计算在特征选择后,为了将一条微搏表示成向量空间模型(VSM)形式,本文还需要对各维的特征进行权重计算。对于不在微博中出现的特征项,其权重为0,在微博中出现的特征项,本文需要通过一定的方法计算其权重。2.4节介绍的TF—IDF是最常用也是目前效果比较好的权重计算方法,本节结合微博情感分类问题特点,分析传统的TF.IDF权重计算方法应用于微博的情感分类的不足,并对其做了相应的改进。-23...”..i2345678摊枞黜唧脚蛳哪脚跚脚蛳 万方数据东北大学硕士学位论文第3章微博情感极性分类研究3.4.1TF—IDF方法不足TF—IDF(TermFrequency—InverseDocumentFrequency)是目前效果比较好的权重计算方法,其主要思想是:如果某个特征项在某个文档中出现的频率TF越高,而包含该特征项的文档在整个语料集合中出现的频率DF越小,该特征项对该文档的表征能力越强,应该赋予更大的权重。TF—IDF计算权重方法综合考虑了词频权重计算和逆文档频率权重计算的优点和不足,因简单有效而被广泛采用。但是,在我们要解决的微博文本的情感分类实际应用中,TF—IDF算法仍然存在着一定的不足之处。首先,对于微博的情感分类,表征一条微博的特征应该是尽可能的反映情感信息的词语。因此,带有情感倾向的词应该比不带有情感倾向的词具有更大的权重。然而,传统的TF.IDF只是采用简单的词频统计来计算特征项的权重,而并没有考虑特征项本身所包含的情感信息。因此,若使得TF.IDF更好适用于情感信息的分类,特征项本身的情感信息还需要进一步考虑。其次,特征项在文本中不同位置所起到的作用是不同的,一条微博中不同位置的句子的极性对整条微博的情感影响程度不同。按照中国人常用的表达习惯,一条微博中的首句和尾句对该条微博的情感影响较中间句要大,而传统的TF—IDF并没有考虑特征项的在文档中的位置信息,这是导致微博情感分类效果不佳原因之一。3.4.2TF—IDF方法的改进在分析了传统的TF.IDF权重计算方法应用于微博的情感分类问题中存在的不足后,我们充分考虑特征项的情感信息和位置信息,从情感信息加权和位置信息加权两方面对TF.IDF进行改进。(1)基于情感信息的TF.IDF改进本文在微博的情感分类研究中,为了弥补传统的TF—IDF计算方法忽略特征项情感信息的不足,我们考虑将特征项的情感信息引进传统的TF—IDF计算公式中,使得带有情感信息的词语比不带情感信息的词语具有更大的权重,从而提升情感词语对文本的表征能力。在这里我们所说的情感信息主要包括情感词和表情符号。对于表情符号,由于其情感极性往往很强烈,我们默认正向表情符号极性为+1,负向表情符号为.1。一24— 万方数据东北大学硕士学位论文第3章微博情感极性分类研究对于情感词,我们要计算其情感倾向值。本章使用HowNet对词语的情感倾向进行计算。1)情感词典的构建:目前现有的中文情感词典不多,本文以HowNet的“中文情感分析用词语集”为基础,构建情感词典。《知网》于2007年10月22日对外发布了m隋感分析用词语集(beta版)”,可以由http://www.keenage.co州下载得到,HowNet情感词典中一共含有12个文件,包括“中文情感分析用词语集”和“英文情感分析用词语集”各6个,总计17887个词语。我们使用文献【411的方法对情感词词典进行构建。2)基于HowNet词语情感倾向计算:我们主要采用基于知网的词语倾向计算方法来进行情感词倾向计算。基于知网的词语情感倾向计算是选取一些基准词,根据情感词与基准词的距离来计算情感词的情感极性。主要思路是将词语word与每个正向基准词(positive)进行相似度计算求和得到正向倾向值,再将word与每个负向基准词(negative)进行相似度计算求和得到负向倾向值,将正向倾向值和负向倾向值做差,得到word的词语倾向值。在词语相似度计算方面,刘群m1等人把两个词语之间的相似度问题归结到了两个概念之间的相似度问题,而两个概念之间的相似度又是由表示两个词语的义原之问的相似度计算而来的。“概念”是对词汇的描述,“义原”是用于描述“概念”的最小单元。因此,在基于HowNet的词语相似度计算方面,主要分为三个计算步骤:Step1:义原相似度计算。概念由义原表示,义原相似度是概念相似度计算的基础。设S,和墨分别是两个不同概念的义原,d表示S和是在义原树中的距离,a是一个可调节参数。则义原相似度Sim(S,,S)计算公式H2】如公式3.4所示。Sim(S1,&)=÷(3.4)U十“Step2:概念相似度计算:每个概念由一组义原来表示,义原主要分为四个部分:第一独立义原描述、其他独立义原描述、关系义原描述和符号义原描述。我们将两个概念Cl和C2中四个部分的义原相似度分别表示为Sima(S。,是),所%(S,&),研肌,(S,岛),Sim,(Sl,是)。那么两个概念cI和C2的相似度可以由公式3.5表示[421。4fSim(C,,C2)=∑屈兀S/m,(S,&)(3.5).25— 万方数据东北大学硕士学位论文第3章微博情感极性分类研究其中,/3是可调节参数,∑屈=l,Si弼(S1,S2)EliSim4(SI,&)的相似度权值是递减的,满足卢。≥/32≥/3,≥卢。。Step3:词语相似度计算:设wD■由胛个概念墨l,S2,...,墨。表示,word2由m个概念疋。,是:,...,是。表示。那么两个词语之间的相似度可以用各个概念相似度的最大值表示,如公式3.6所示。Sim(wordl,w峨)-,max,Sim(C1i,C2,)(3.6)⋯,I,』一-,”在基准词的选择方面,复旦大学的朱嫣岚H31选择了40对正负基准词,实验结果准确率高达80%。但由于基准词的选取只是简单的根据词频筛选,基准词中有许多语义相同的词语,比如:q陕乐”和“欢乐”,“魔鬼”和“恶魔”等;另外有些词语的情感归类不够准确,如“病人”、“事故”属于中性词;同时基准词语的覆盖面不够广泛。本文针对朱嫣岚选取的40对基准词语基础上进行修正,删除其中语义相同的词语,并添加部分网络流行语中具有强烈的正负情感倾向的词语。最终整理了50组基准词表3.1和表3.2所示。表3.1改进的正向基准词一!垒!!皇三:!墅巳翌坚垒巳竺!熊兰!竺翌兰.——50个正向基准词表3.2改进的负向基准词!皇!!呈!:三坠巳竺∑呈璺翌曼g型i∑!12盟150个负向基准词为:根据词语相似度计算方法和对基准词语的选择,可以得出词语word的倾向值so(w硎)=去喜跏(w。耐,删毗)_l历羔一sim(w。记门egativej)(3.7)其中,Sire(word,positive)和Sim(word,negative)分别表示word和正向基准词和负向基准词的相似度。n和m分别表示正向基准词和负向基准词的个数。在.26.。二U。 万方数据东北大学硕士学位论文第3章微博情感极性分类研究本文中,刀=m=50。那么公式3.7可以转换为公式3.8形式。∞(word)2击善跏(wD础p伽ff毗)一嘉善跏(word,n倒fv巳)(3.8)一般情况下,默认设置0为阈值,若SO(word)>0,则该词语是正向情感词;若SO(word)<0,则该词语是负向情感词。的绝对值代表了情感强度的大小。根据前文的情感词典和情感词倾向计算方法,本文对传统的TF.IDF公式进行了改进,提出了计算公式3.9。巧犯矿(删=乃犯叹删×一聊删=陬Ⅵ旧栅×脚(聊栅×d聊⋯吲(3.9)铡删妯碥地5)×d洲其中,e|∞‘”耐l表示情感词的加权函数值。SO(word)的取值范围为[一l,l】。∈J∞‘删l的取值范围为【1,P】。函数图像如图3.4所示。一\/图3.4情感信息加权函数图像Fig.3.4Emotionalinformationweightingfunctiongraph在公式3.9中,I.如(wo耐)l表示wc耐的感情色彩的强度,其具体的取值按如下情况处理:若特征项是表情符号,由于表情符号的情感倾向十分明显,ISO(word)l=l;若特征项不在情感词典中,那么特征项不包含任何情感信息,贝tJlSO(word)I=0;若特征项在情感词典中,则根据公式3.8计算其情感强度SO(word),从而得到ISO(word)I值。根据以上分析,我们提出了基于情感信息加权的TF—IDF改进算法,具体步骤如算法3.2。.27. 万方数据东北大学硕士学位论文第3章微博情感极性分类研究算法3,2基于情感信息加权的TF.IDF改进算法Algorithm3.2ImprovedTF—IDFalgorithmbaseonemotionalinformation计算微博文本中各个特征项的特征值特征选择后的特征项集合Features,微博文本t各个特征项的特征值集合weights对微博t去噪音处理,中文分词,去停用词,得到结果序列words,words=wordsnFeatures扫描每一个word∈words如果word∈表情符号,词语倾向值SO(word)=l;如果word∈情感词典,利用公式3.1l计算结果得出词语倾向值SO(word);否则,SO(word)=O根据词语倾向值SO(word),使用改进的TF-IDF公式3.9公式计算word权值weight若words扫描完成,返回特征项集合words和对应权重集合weights,算法结束,否则,执行Step2算法3.2中,首先对微博文本进行分词,得到分词序列。然后,根据特征项集合和分词序列抽取该条微博所包含的特征项,遍历每个特征项,根据特征项类型计算情感加权函数。最后,使用改进的TF.IDF公式计算特征项的权重。(2)基于位置信息加权的TF—IDF改进传统的TF.IDF计算公式没有考虑特征项的位置信息对其权重的影响。本文为了弥补其在微博情感分类领域的不足之处,在算法3.2情感信息加权的基础上,进一步考虑将特征项的位置信息引进TF—IDF计算公式中。我们知道,根据人们的表达习惯,一条微博中的首句和尾旬对该条微博的情感影响大些,中间的句子影响相对较小。据此,本文引入位置权重系数,对不同位置的特征项赋予不同的权重系数。本文将一条微博分为首句&嘲、中IN句s。础和尾句‰三个部分,那么一条微博f可以表示为,={%。跏,靠础,&耐)。将不同位置的句子分别赋予不同的位置系数九。并且满足:罗九=1,其中,露表示t所在的位置,1表示首句,2表示中间句,3表示尾句。特征项位置的加权系数如表33所示。系数0.4,0.2,0.4由特征项在微博中不同位置的重要性决定,所在位置的重要性越高,该特征项的权重系数越大。.28.能入出巾币节挚摊鼽籼唧脚跚脚蛳 万方数据东北大学硕士学位论文笫3章微博情感极性分类研究表3.3特征项位置系数Table3.3Postionofwordandweights词出现的位置位置加权系数(”sbe日inS。,舭s利O.40.2O.4根据以上分析,特征项t在微博歹出现的频率巧,的计算公式2.9应该调整为公式3.10形式。磁=∑以×啄(3.10)上式中,赐表示t在微博歹的&咖、s。枞和%位置上的出现频率。由此,在引入了特征项情感信息的公式3.9的基础上,本文迸一步引入特征项的位置信息,调整后的计算方法如公式3.11所示。阿,D∥(word)=TFIDF(word)xe·陋‘”删X=TF(word)x1DF(word)xeIs口(w州1(3.11)=荟3九曝(word)×log赢+0.5m陋似硎根据前文对特征项位置信息的考虑,本文在算法3.2的基础上,提出了基于特征项情感信息和位置信息混合的权重计算算法。首先对微博文本进行数据预处理,得到分词序列。然后,根据特征项集合Features和分词序列抽取该条微博包含的特征项,遍历每个特征项,根据特征项类型计算情感加权函数,伺时,根据该特征项在微博中所处的位置,计算特征项的权重值TF,最后,使用改进的TF—IDF公式3.11计算特征项的权重。基于特征项情感信息和位置信息混合的TF.IDF改进算法描述如算法3.3所示。算法3.3基于情感信息和位置信息的TF—IDF改进算法Algorithm3.3ImprovedTF—IDFalgorithmbaseonemotionalandposition.29— 万方数据东北大学硕士学位论文第3章微博情感极性分类研究Step2.-Step3:Step4:Step5-扫描每一个word∈words如果word∈表情符号,词语倾向值SO(word)=l;如果word∈情感词典,利用公式3.11计算结果得出词语倾向值SO(word);否则,SO(word)=0判断word出现在微博中出现的位置,根据公式3.10计算TF值将Step3和Step4结果代入公式3.1l,使用改进后的TF—IDF公式计算word的权重weight若words扫描完成,返回特征项集合words和对应权重集合weights,算法结束,否则,执行Step23.5基于SVM的微博情感极性分类本文使用支持向量机(sVM)来对微博进行情感分类,将微博文本分为正向情感和负向情感。之所以选择SVM作为分类器,主要是基于SVM在文本分类方面的以下几个明显优势:(1)适用于高维向量空间。这一点正好满足文本情感分类的需求。SVM的最终决策函数只由少数的支持向量所确定,算法简单,计算的复杂性取决于支持向量个数,并非向量空间维数,避免了维度过高引起的“维数灾难”。(2)由于有严格的统计学习理论保证,应用SVM建立的模型具有较好的泛化能力。SVM可以给出所建模型的泛化能力的确定的界,这是目前其它任何学习方法所不具备的。基于SVM的情感分类主要分为文本预处理、特征选择、特征权重计算、分类器训练和使用等步骤。微博样本主要分为两个部分,一部分用于训练,一部分用于测试。基于SVM的情感分类主要分为两个阶段:训练阶段:对训练文本进行学习生成分类器。首先对训练微博样本进行去噪音、分词、去停用词等预处理,然后,运用改进的信息增益方法进行特征选择,运用改进的TF.IDF进行权重计算,将训练文本表示成VSM模型,最后,将训练集中所有文档生成的向量空间模型输入SVM算法,进行训练学习,最终构造出分类器。测试阶段:利用训练阶段生成的分类器对测试集合中的文本进行情感正负向分类。将待分类微博文本表经过预处理、权重计算等步骤,表示成VSM模型,输入SVM分类器,对微博情感极性进行预测。基于SVM的微博情感极性分类的流程如图3.5所示。.30. 万方数据东北大学硕士学位论文第3章微博情感极性分类研究嗓音处理中文分词Il类间集中度特征项情感值去停厢词il类内均匀度ll特征项位置训警奎H攀羔H麓瑟H臻篙H向量倦训练文本H预处理特征选择(算法3.1)权重计算(算法313)去停用诃lI类内均匀度ll特征项位置中文分词II类间集中度噪音处理特征项情感值图3.5基于SVM的情感极性分类流程Fig.3.5PolarityclassificationbasedonSVMs1VM}类器向量化工SVM分类器工分类结果训练结果由于训练阶段和测试阶段的流程大体一致,本文以训练阶段为例,基于SVM的微博情感分类的主要步骤如下:(1)对微博文本集合进行数据预处理,主要包括噪音处理、中文分词,将名词(n)、动词(v)、形容词(a)、副词(d)、叹词(e)、代词(r)六类词性保留,将不属于这六类词性的词语按照停用词过滤掉。(2)将数据处理后的每个词语作为候选特征,使用公式2.6计算每个候选特征的信息增益值,使用公式3.1和公式3.2计算候选特征的类间集中度CR和类内均匀度DR。最后运用公式3.3得出候选特征的重要性分值。选择分值最大的前N=1000个候选特征作为特征选择的结果。(3)特征选择后,计算在微博中出现的各个特征项的权重值。首先根据特征项的属性计算特征项的情感值,并结合特征项的位置信息,使用公式3.11的计算结果作为特征向量中对应特征项的权重值。对于特征向量中不存在的特征其权重值为0。(4)将生成的特征向量按照格式输出到文件,将文件送入SVM分类器中进.31. 万方数据东北大学硕士学位论文第3章微博情感极性分类研究行训练。本文构建的基于支持向量机分类方法,在传统的特征选择和权重计算方法上做了改进。在特征选择过程中,充分考虑类间集中度和类内均匀度对特征选择的影响;在权重计算过程中,结合了特征项的情感信息和位置信息,这样可以特征选择的结果更能简单有效的表示文本,使得特征的权重更贴合文本的语义,分类的效果更好。3.6本章小结本章详细介绍了微博情感极性分类的数据预处理、特征选择、权重计算等方法,并结合微博文本情感分类的问题特殊性,对特征选择和权重计算方法进行了改进。在特征选择过程中,传统的信息增益方法忽略了特征项在不同类之间、同一类之内的分布情况,本文引入类间集中度和类内均匀度因子,对信息增益的特征选择方法进行修正。在权重计算过程中,结合微博语言特点,将特征项的情感信息和位置信息引入"IT—IDF权重计算公式。最后,结合改进的特征选择和权重计算方法,给出了基于SVM的情感正负极性分类流程。.32. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究人类的情感非常丰富,复杂多变,情感类别的划分并没有统一的标准。现阶段的研究中,大部分的情感分类都是对文本情感进行极性分类,即将情感分为正向情感和负向情感。然而,在情感分类问题上,情感具有很强发散性,人类的语言丰富多彩,情绪复杂多样,单纯的用正向或负向来描述人类情感,过于笼统,不能够细致的表达人们的情感状态。例如,“愤怒”、“伤心”等都属于负向情感,然而对某个事件的情感态度是“愤怒”或是“伤心”,其情感存在着一定的差距。因此,在第3章情感极性分类研究的基础上,还需要对微博情感进一步细粒度划分。目前,对于情感类别的进一步戈IJ分的研究尚少,其成果也难以得到大家公认。本文第3章研究的基于SVM分类器的情感极性分类方法,在处理二分类问题上效果显著,但由于SVM主要用于二元分类,基于SVM的多分类效果并不理想,针对SVM的多分类研究研究尚处于起步阶段。因此,在进行情感的细粒度分类研究中,本文选择基于情感词典的分类方法。然而,现有的多类别情感词典在词语覆盖面上还存在着一定的不足,同时,基于情感词典的情感多分类效果也不是很理想,需要做进一步深入研究。因此,本章在第3章微博情感极性分类的基础上,对微博的正向情感和负向情感进一步细粒度情感分类。本章组织结构如下:第一节对本文所用的多类别情感词典进行了介绍,并分析现有情感词典的不足。第二节针对现有情感词典的不足,对情感词典进行了扩展,第三节利用扩展的情感词典,提出了微博情感细粒度分类算法,第四节情感极性分类和情感细粒度分类结合,给出了基于中文微博的情感分类算法流程。4.1多类别情感词典的构建词汇的情感色彩很大程度上影响了句子的情感色彩,因此,多类别情感词典的建设是情感细粒度分类的基础性工作,情感词典建设的好坏直接影晌文本情感分类的效果[441。然而,目前关于多类别情感词典方面的资源不多,现有的情感词典大多是用于情感的正负极性分类,对情感划分的研究仍在不断的进步和发展中,用于多类别的情感资源寥寥无几。.33. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究大连理工大学信息检索研究室徐琳宏提供的中文情感词典,将词语的情感类别分为乐(happiness)、好(1ike)、惊(surprise)、怒(anger)、哀(sadness)、惧(fear)、恶(disgust)7大类,一共包含27466个情感词,并根据情感词的强度分为1,3,5,7,9共五个级别,9表示强度最大,1表示强度最小。为了方便下文对多类别情感词典的扩展,我们将这五个情感强度归一化表示为l,2,3,4,5。多类别情感词典部分示例如表4.1所示。表4.1多类别情感词典部分示例Table4.1Examplesofmulti-classemotiondictionary大连理工大学提供的多类别情感词典支持了多类别情感词汇的分类,对于人类复杂情感具有较好的识别作用。因此,本文以它作为情感细粒度分类依据,将正向情感分为乐(happiness)、好(1ike)和惊(surprise)三类,将负向情感分为怒(anger)、哀(sadness)、惧(fear)和恶(disgust)四类。然而,现有的中文多类别情感词在词语覆盖面上还不够广泛,微博中充斥着大量的网络新词、网络流行语和专有名词等,例如:“厢丝”、“高富帅”等,同时一些词语随着时代推进衍变出不同的情感含义。因此.现有的多类别情感词典..34.. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究无法满足微博的情感细粒度分类研究,这就需要采用一定方法,对现有的多类别情感词典进行扩展,适应微博语料环境,提高多类别情感词典的覆盖范围。4.2多类别情感词典的扩展4.2.1候选情感特征的生成由于中文词汇量庞大,微博语言形式丰富多彩,随着网络新词、网络流行语和专有名词的不断衍生,以及词语在不同领域的不同情感含义,使得仅仅依赖现有的多类别情感词典无法识别所有微博的情感信息,这就要求对现有的情感词典进行扩充。如果为所有词汇人工标注其情感倾向、判断其情感强度,加入情感词典,不但耗费巨大的人力资源,也难以保证人工判断的准确性。为了实现对多类别情感词典的扩展,本文从微博训练语料中,通过一定的规则提取出特征,生成微博候选情感特征集合,对其做进一步的选择将其加入多类别情感词典中。根据微博文本与传统文本的异同,本文抽取微博训练语料中以下内容作为候选特征:(1)表情符号表情符号的使用是微博语言的一大特色。一条微博中可以包含一个或多个表情符号。近年来,由于表情符号丰富多样,其使用相对于文字输入更加简单方便,表情符号在微博中的使用日益频繁。新浪微博提供了大量的表情符号供用户使用,如图4.1所示。默认浪小花暴走浸画小恐龙玲兔>圈驾豳愈鑫目圆曾钠赣灞◇图4.1新浪微博部分表情符号Fig.4.1PartofSinaWeiboemoticons.35.国@④⑨眵甾数管~锗@簟堂凿@o④⑧@曾②一够一④⑧^凶器@⑧、④@铲密一@焉一⑧瀵缈◇国@④②落繁法~@②②够团@②一@国凸◇⑧④心黪舀陵固⑧囝一蛰毯国一黝一④骗一一露⑧ 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究可以看到,微博中的表情符号本身就可以视为一个多类别的情感词典,它们能够表达乐(happiness)、好(1ike)、怒(anger)、哀(sadness)、惧(fear)、恶(disgust)和惊(surprise)等多种情感,并且情感倾向十分清晰明显。因此,在对多类别情感词典扩展过程中,本文需要充分考虑表情符号,将其抽取出来作为候选特征。(2)基于词汇组合抽取分词后的词汇单元为一个词语,然而,微博表达过程中有许多由多个词汇组合构成的情感短语、专有名词或网络流行语等,例如“高大上”、“白富美”、“不明觉厉”等,如果简单的提取中文分词后的每个词语,会使得大量的短语、流行语无法识别。例如对于微博:“这个牌子的衣服真是高大上”,对该条微博分词后的结果为:{这个牌子的衣服真是高大上}。在这里将网络流行语“高大上”分成了“高大”和“上”两个词语,若将这两个词语分别抽取出来,会严重影响词语提取效果。为了有效解决这个问题,本文引入滑动窗口的概念,设置滑动窗口大小为n,以分词后词汇单元作为划分基准,将词语本身及其前和后的n个词语进行组合。由于情感短语大多为两个词语的组合,因此,在这里,本文设n=l。那么可以从以上例子中抽取出如下词汇组合:{这个,这个牌子,牌子,牌子的,的,的衣服,衣服,衣服真是,真是,真是高大,高大,高大上,上}。这样,“高大上”能够被有效的抽取出来。运用此方法可以弥补现有分词系统无法识别专有名词、网络流行语等不足。(3)标点符号标点符号在句子的情感表达中经常被使用,它们也在一定程度上反映了说话人的情绪状态。如“?”表达作者的疑问情绪,“!”用来抒发喜悦、赞美、惊讶、愤怒、哀伤等感情。另外,微博用户有时会用连续的标点符号来突出强调情感。如:“!!!”、“。。。”等。这些标点符号本身对于句子情感具有一定的识别作用,是理解和判断微博情感的重要手段。因此,本文将微博语料中的标点符号进行抽取,作为情感词典候选特征。根据以上分析,本文以微博训练语料为基础,将表情符号、词语及词语组合、标点符号作为候选的情感特征抽取出来,具体的候选情感特征的抽取过程如算法4.1描述。.36— 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究算法4.1微博候选情感特征生成Algorithm4.1GenerationofWeibocandidateemotionalfeature功能:输出:输入:Step1:Step2:Step3:Step4-Step5:利用微博训练语料生成微博候选情感特征候选情感特征集合Features微博训练集合T扫描微博f∈T如果t中含有标点符号,标点符号加入Features对t进行数据预处理,结果存入words扫描words中每个词语word,如果是表情符号,将表情符号加入Features:如果不是表情符号,将词语本身加入Features,将词语左右滑动窗口n个词语组合加入Features如果Features扫描完成,算法结束,返回候选情感特征集合Features。否则,执行Step14.2.2情感特征抽取由于中国语言博大精深,表达形式丰富多彩,词汇量巨大。如果对4.2.1节生成的候选情感特征全部作为情感特征扩展到多类别情感词典中,那么会造成情感词典的规模十分庞大,同时一些词语本身并不具备明显的倾向性,使得情感词典中的冗余词汇较多,影响其有效性。因此,需要运用相关技术,从大量候选词汇中,剔除情感信息不明显的特征,只选择具有明显情感信息的特征补充进多类别情感词典。本文根据传统的TF—IDF权重计算思想,提出了一种改进的基于方差的TF.IDF用于对候选特征进行约简。TF.IDF方法相较于单纯词频(TF)或文档频率(DF),既考虑了特征项在局部的分布特征,也充分考虑了特征项在全局的分布特征。该方法因简单有效而被广泛应用于文本的特征抽取过程。传统的TF.IDF方法主要用于计算某一特征项在某一文档中的权重,本文将TF.IDF的思想创造性应用于计算某一特征项在某一类别文本中的权重。设文档集合为D,D由K个类别的文本组成D={口,砬,...,域)。每个类别的文本个数用札表示,k∈K,设文档总数为N,Ⅳ=M十M+⋯+屹,候选情感特征集合T={tl,t2,...,乙)。.37— 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究改进的TF—IDF具体的含义如下:觋:候选情感特征I在文档集合包中出现的比例。砚=端⋯)DE,:候选情感特征t的文档频率,砬中出现候选情感特征t的文档数占文档总数Ⅳ的比例。肼;:候选情感特征t反文档频率。删=logL-”讯,州N父侣,.甄而+05j@2)那么,某一特征项在某一类别中的权重TF.IDF表示为公式4.3。TFIDFik=觋xIDF,=磁t×log(而葡蒜+o.5)(4.3)根据公式4.3,可以计算得出情感特征t在第k个类别中所占的权重。然而,该方法只考虑到情感特征在某一特定类别中的分布情况,并没有提供情感特征在其他类别中的权重信息。我们知道,特征项在某一类别中的权重越大,而在其它类别中所占的权重越小,它才能够较好的代表该类别的特征。因此,对于情感细粒度分类,本文希望能够通过某种方法,衡量某一情感特征在不同的情感类别中的权重差异性,选择在不同情感类别中权重相差大、不稳定的情感特征,计算其情感倾向,补充进多类别情感词典。根据以上分析,为了计算候选情感特征在不同类别下权重波动性的大小,本文利用统计学领域中方差(Variance)的概念。在概率论与数理统计理论中,方差用来度量随机变量和其数学期望之间的偏离程度。设一组数据集合为“,恐,...,%),它们的平均值为x,那么它们的方差D(功计算公式如公式4.4所示。∞脚(x2M∽2=专陲薯2蕊2]⋯)方差用来衡量一个样本波动的大小,方差越大,样本波动性越大,样本就越不稳定。根据方差的思想,我们可以考虑某一特征项在各个类别下权重的波动,波动越大,说明特征项的在不同类别下的权重越不稳定,越能够代表某一类别。由此,本文提出了基于方差的TF.IDF改进方法,首先运用TF。IDF计算公式413得出情感特征在各个类别中的权TF/DF庙。然后将计算得来的ZW_DF,t应用于公.38. 万方数据东北大学硕士学位论文第4章微静睛感细粒度分类研究式4.4,那么有公式4.5成立。。(TFIDF(x,胪I(窆k=ITFIDF,k2-K藏2](4.5)其中,K为情感类别的个数。TFIDF,为特征项薯在各个类别中权重的平均值。由公式4.6计算而来。——∑TFIDF,kik——J£.oTFIDF卢午(4·6)候选情感特征的方差越大,表示该特征在不同的类别中的权重波动越大,情感倾向于某一唯一类别的可能性越大。因此,本文可以根据各个候选情感特征的方差大小,对方差结果由大到小进行排序。设定一个特定阈值日,将前0个情感特征作为抽取结果。4.2.3情感倾向及强度判定4.2.2节抽取来的情感特征,在将它们扩充进多类别情感词典之前,还需要判断它们各自的情感类别及情感强度。首先,需要判断抽取到的各个情感特征所属的情感类别。最直观的方法是采用TF的方法计算特征项在每个类别中的频率,情感特征在哪个类别中出现的频率高,就将它归为哪一个类别。然而,由于语料的不完备性和不平衡性,采用TF方法判断情感类别效果并不理想。我们采用TF—IDF的方法,根据公式4.3计算得到TF—IDF值,情感特征在某一类别中的权重越大,它属于该情感的可能性也越大。因此,本文采用这样一种方法判断情感特征的情感类别:对特征抽取过程中所得到的各个情感特征,计算情感特征在各个类别中的TF.IDF值,对情感特征在各个类别中TF—IDF值进行排序,选择TF—IDF值最大的作为该情感特征的情感类别。在确定了情感特征所属的情感类别之后,我们需要进一步判断情感特征的情感强度。这里,我们采用3.4.2节介绍的基于HowNet词语相似度方法,将情感特征分别与该情感类别下的五个级别强度的词语集合进行相似度计算,选择相似度最大的作为该情感特征的情感强度。设word的情感类别为label,label中五个情感强度分别表示为厶,厶,厶,厶,厶,属于五个级别的词语个数分别为Ⅳ1,Ⅳ2,Ⅳ3,Ⅳ4,Ⅳ,。一39— 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究舰(w。耐,厶)=可1蔷N,溉(w。耐,易)(4.7)其中,L,s表示第f个级别强度集合中的第歹个词语。Sim(word,厶,)由公式3.7计算得出。计算得到word与5个强度词语集合的相似度,选择word与之相似度最大情感强度作为该特征项的情感强度,因此,word情感强度可以由公式4.8计算得出。strength(word)=argmaxSire(word,厶)(4.8)i=12,...,5在前文介绍的候选情感特征的生成和情感特征的抽取基础上,我们提出了基于微博训练语料的多类别情感词典扩展算法。从微博的训练语料中抽取可用的情感特征,计算其情感倾向及情感强度,扩充到现有的多类别情感词典。多类别情感词典扩展算法的主要思想是:首先根据微博训练语料生成候选情感特征集合(算法4.1),遍历候选特征集合中的每个候选情感特征,使用基于方差的TF.IDF计算公式4.5计算其权重波动方差,选取方差最大的前Ⅳ个特征,根据其在各类别中的TF.IDF,选取最大的类别作为其情感类别,最后使用公式4.8计算其情感强度。最后,将该情感特征加入多类别情感词典所对应类别。基于微博训练语料的多类别情感词典扩展算法如算法4.2所示。算法4.2多类别情感词典扩展Algorithm4.2Expendofmulti-classemotionaldictionary功能:根据微博训练语料扩展现有多类别情感词典输入:微博训练语料集合T输出:情感特征三元组(feature,label,strength)Step1:调用算法4.1,通过T得到候选特征集合FeaturesStep2:扫描Features中的每一个特征featureStep3:计算feature在K个类别下的TF.IDFStep4:计算K个类别下TF-IDF值的方差。若Features扫描完成,执行Step5,否则执行Step2。Step5:将Features集合按照方差大小降序排列,保留前N个特征Step6-Step5选择的N个特征,每个特征选取TF—IDF最大的类别K作为情感类别label,根据公式4.8计算其情感强度strengthStep7:将N个情感特征以(feature,label,strength)形式扩充进多类别情感词典DictionaryStep8:返回Dictionary,算法结束。..40.. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究算法4.2中,首先调用算法4.1对微博语料进行候选情感特征生成,候选情感特征的生成集合保存在集合Features中。从Features集合中的第一个候选情感特征开始向后遍历,对于每个候选情感特征feature,计算其分别在K个类别的权重,根据权重计算结果计算方差。在遍历完Features中的每个feature之后,按照方差大小排序,选取前N个情感特征,在本文中,我们设N=1000。分别计算N个情感特征类别label,情感强度strength,将其加入多类别情感词典Dictionary,算法的最后返回Dictionary。将选择的情感特征扩展到多类别情感词典后,会有部分情感特征和原多类别情感词典中的情感特征重复,对此,我们保留原多类别情感词典对该情感特征的倾向和强度判断,删除冗余情感特征。4.3基于情感词典的情感细粒度分类对多类别情感词典扩充后,我们接下来研究如何利用多类别情感词典来计算微博文本的情感值。由于多类别情感词典对每个情感特征都标注了情感类别和情感强度,因此,对于微博文本的情感值计算,主要思想是对微博中的情感特征,依据情感词典中情感词的类别和强度,统计各个情感的情感分值,选取最大的情感类别作为微博的情感类别。4.3.1副词对情感特征的影响.茹在情感倾向计算过程中,副词对情感特征的修饰需要重点考虑。副词主要包括程度副词和否定副词。传统的针对主题的文本分类,大部分都将副词作为停用词来处理。然而,在情感分类研究中,副词对词语的情感倾向具有十分重要的意义和影响,被否定副词修饰的词语的极性会被改变,被程度副词的修饰的词语在情感强度上会发生强弱的变化。因此,本文构建了程度副词词表和否定副词词表。在这里,本文为不同修饰强度的程度副词设置不同的强度级别。表4.2否定副词词表Table4.2Negativewordstable强度否定副词不、没、无非、否、勿、不曾、未必、没有、未曾、难以、不能、不要、崩、别、毋庸、不需、不用⋯⋯一41. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究表4.3程度副词词表Table4.3Adverbsofdegreetable强度程度词语2.0最、太、极其、分外、万分、绝对、尤其、极为、过度、分外、异常、无比、百分之百、强烈1.5很、格外、颇为、着实、特别、愈发、非常、完全、超级、忒、大为、何等1.2比较、更、相当、挺、蛮、怪、多多少少、进一步、较为、越来越、还O.7稍微、有点儿、略微、轻度、有些、一丝程度副词对于情感倾向分析的至关重要,例如,“非常好”的表达程度比“好”要高【3】。不同程度副词的修饰使得情感词语在情感倾向程度上发生了强弱的变化。对于“程度副词+情感词”组合模式,本文根据程度副词强度级别来对情感词进行加权处理。例如,“很喜欢”,由于在like类中情感强度为3,“很”修饰强度为1.5。则“喜欢”的强度增强为1.5*3=4.5。在情感的细粒度分类中,否定副词对情感特征的修饰,并不能采用极性反转的方法,这是因为本文所划分的情感类别十分复杂,并不是传统极性分类中简单的非正即负的关系。通过对大量语料研究统计,我们对“否定词+情感词”的组合模式仅考虑以下形式,如表4.4。在这里,Neg表示否定副词,A表示程度副词,strength表示情感强度,weight表示程度副词强度。表4.4副词和情感词搭配模式T拍le4.4Patternsofadverbsandemotionalwords表4.4中,对于有否定副词出现的搭配情况,本文仅考虑happiness类和like类的情感词,将happiness类对应于sadness类,like类对应于disgust类。而对于其它类别,“否定词+情感词”、“否定词+程度副词+情感词”、“程度副词+否定词+情感词”的搭配都不考虑,出现这种情况,将它们忽略掉,认为它们不包含情感信息。主要基于以下原因:.42. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究1)happiness类/like类可以转化为sadness类/disgust类,而sadness类/disgust类不能对应转化为happiness类/like类,这是因为否定词+happiness/like可以表达sadness/disgust情感,而否定词+sadness/disgust却不一定能够表达happiness/like的情感。例如:“不高兴”可以来用来表达“难过”,而“不难过”却不能用来表示“高兴”。2)anger、sadness、fear、surprise这四类的情感词情感信息很复杂,并不是简单的非正即负,无法极性反转为合适的情感。例如“不害怕”,“不太难过”,“不怎么伤感”并不能恰当的转化为其他情感。因此,遇到这种情况,我们忽略掉该情感组合。综上两个原因,本文仅对happiness类和like类的否定词搭配进行情感转换,而对其他情感类别的否定词搭配情况,则认为否定词使得原有情感特征倾向消除,忽略该情感特征。4.3.2微博情感计算接下来本文研究微博情感的计算方法。根据扩展了的多类别情感词典,统计一条微博中属于各类别的情感词汇出现情况,同时考虑否定词和程度副词对情感强度的影响,根据微博在各类情感的分布,计算得出该条微博在各个情感粒度下的情感分值。本文提出了微博情感细粒度分类算法,算法的主要思想是:对每条微博设定7个情感分数,分别为happinessScore,likeScore,surpriseScore,a11紫rScore,sadnessScore,fearScore,disgustScore。在微博的情感计算过程中,首先,统计各类情感特征出现情况,同时考虑程度副词、否定词和情感特征的搭配模式对情感强度的影响,将情感特征的强度累加进其对应的情感分数中。通过这种方法,可以得到一条微博在各个情感类别上的分布情况。最后选择情感分数最大的类别作为该条微博的情感倾向类别。基于多类别情感词典的微博情感细粒度分类算法流程描述如算法4.3所示。算法4.3基于情感词典的微博情感细粒度分类Algorithm4.3Weibofine—grainedclassificationbasedonemotionaldictionary功能:利用扩展了的情感词典判断微博文本的情感类别输入:一条微博文本t输出:情感类别Label..43.. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究Step1:Step2:Step3:Step4:Step5:Step6:Step7:Step8-对微博t进行数据预处理,预处理结果存入words扫描下一个词语word∈words,获取word的情感类别label和情感强度strength如果word盛情感词典,执行Step2,反之,执行Step4判断word被副词修饰情况iffword不含副词搭配)label.Score+=strengmiffword被程度副词修饰)label.Score+=strength*程度副词强度iffword被否定词修饰)执行Step5if(word被否定词+程度副词修饰)执行Step6if(word被程度副词+否定词修饰)执行Step7判断word的情感类别labelif(1abel=happiness)label=sadnesslabel.Score+=strengthif(1abel=like)label=disgustlabel.Score+=strengthelse执行Step2判断word的情感类别labelif(1abel=happiness)label=sadnesslabel.Score+=strength*程度副词强度+0.5if(1abel=like)label=disgustlabel.Score+=strength+程度副词强度+0.5else执行Step2判断word的情感类别labelif(1abel=happiness)label=sadnesslabel.Score+=strength4程度副词强度if(1abel=like)label--disgustlabel.Score+=strength*程度副词强度else执行Step2获取最大的情感分数所在类别label,算法结束,返回微博类别Label例如:我觉得《催眠大师》很好看,虽然有点恐怖,但并不生硬,情节扣人心弦。喜欢【哈哈】Step1:对微博文本进行数据预处理分词后的结果为:f催眠大师很好看虽然有点恐怖但并不生硬情节扣人心弦喜欢[哈哈】},Step2:根据多类别情感词典,查找情感特征根据扩展了的情感词典,我们可以得到:(好看,like,2),(恐怖,fear,3),(扣人心弦,like,4),(喜欢,like,3),(【哈哈】,happiness,4)。其中,“好看”由程度副词“很”修饰,根据表4.3,“很”的强调程度为1.5,因此“好看”的情..44.. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究感强度加强1.5倍,则有(好看,like,3)。Step3:统计情感分数统计各个情感特征属于各个情感类别的分数有:happinessScore=4,likeScore=10,angerScore=0,sadnessScore=0,fearScore=3,surpriseScore=O,disgustScore=0。Step4:判断情感类别以最大情感分数所在的类别like作为该条微博的情感类别。4.4基于层次的情感细粒度分类基于情感词典的微博情感细粒度分类方法简单易行,处理速度快,对于具有明显情感倾向的文本具有较好的分类效果。然而,基于情感词典的方法存在着一定的不足:首先该方法无法处理那些不包含情感特征而含有情感色彩的微博文本,例如:“怎么又是她呢?”该句子不包含任何情感特征,但却明显表达了说话者对“她”的不满。如果单纯利用情感词典,无法识别情感信息,将不能识别出微情感,导致判断错误。其次,该方法对于情感态度模棱两可、情感分数值相等的情况缺少合适的分类能力,假设某条微博情感计算得到的happinessSeore和fearScore值相等,那么该条微博不但细粒度情感无法判断,甚至它们的情感正负性也无法区分,这严重的影响了分类效果。s.另外,如前文描述,该方法只考虑了happiness类和like类两个类别的否定副词和程度副词搭配情况下的处理方法,而忽略了其它类别的情感词副词搭配情况,使得处理结果非常粗糙。通过以上分析,我们知道,如果单纯的利用基于情感词典的方法直接对微博的情感进行细粒度分类,许多情况将导致微博的情感无法被准确分类,甚至导致正负极性都无法判定的后果。因此,本文提出了基于层次的微博情感细粒度分类,采用分层处理方式,先对微博文本进行情感极性分类,然后对微博文本进行细粒度分类。基于层次的微博情感细粒度分类的整个分类流程分为两个阶段,三个步骤,整体流程如图4.2所示。..45.. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究图4.2基于层次的微博情感细粒度分类的流程Fig.4.2WeIbofine—grainedemotionclassificationbasedonhierarchical(1)两个阶段:第一阶段:微博情感极性分类。该阶段对微博进行情感极l生分类,采用第3章介绍的情感极性分类算法,首先对微博文本进行数据预处理,经过特征选择、权重计算等步骤将文本向量化,输入训练好的SVM分类器,输出文本的正负情感分类结果。..46.. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究第二阶段:微博情感细粒度分类。该阶段对正负情感文本分别进行细粒度分类,将正向情感划分为乐(happiness)、好(1ike)、惊(surprise)三类,负向文本划分为怒(anger)、哀(sadness)、惧(fear)、恶(disgust)四类。通过对微博训练语料统计,我们发现,正向情感的3个类别中,like类所占比重最大,大概占正向情感总数的60%,负向情感的4个类别中,disgust类所占比重最大,大概占负向情感总数的40%。因此,考虑到第一阶段结果中不含有情感特征的微博文本的处理,我们按如下规贝q处理:若微博的极性分类的结果是正向情感,我们将其划分为like类;若极性分类的结果是负向情感,我们将其划分为disgust类。(2)三个步骤:步骤l:微博情感极性判断。该阶段对微博进行正负情感极性分类,采用第3章基于SVM的分类方法。在此不赘述。步骤2;对正向情感细粒度分类。仅考虑属于happiness,like和surprise三类的情感特征。若不含l青感特征,将其分类到like;若含情感特征,计算微博在三类情感上的情感分数(算法4.3),选择情感分数最大的情感作为这条微搏的情感类别。步骤3:对负向情感细粒度分类。仅考虑属于anger,sadness,fear和digust四类的情感特征。若不含情感特征,将其分类到disgust;若含情感特征,计算微博在四类情感上的情感分数(算法4'3),选择情感分数最大的情感作为这条微博的情感类别。(3)算法优势分析基于机器学习的情感分类方法不会受到是否有情感特征的约束,其在处理情感极性分类问题上取得了良好的效果,基于情感词典的微博情感细粒度分类方法简单易行,处理速度快,对于具有明显情感倾向的文本具有较好的分类效果。本文提出的基于层次的微博情感细粒度分类,结合了机器学习方法和情感词典方法在情感分类方面的各自优势。将微博情感先极性分类,再细粒度分类,避免了正负向情感分值相等时无法判断导致的严重分类错误,同时,使得情感细粒度分类的规模分为正向三分类和负向四分类两个问题分而治之,缩小了问题规模。.47. 万方数据东北大学硕士学位论文第4章微博情感细粒度分类研究4.5本章小结本章在第3章研究微博情感正负极性分类的基础上,对正负极性微博情感进行细粒度划分,研究了微博文本情感的细粒度分类方法。首先利用微博训练语料,提出了一种基于方差的TF—IDF方法进行情感特征抽取,同时给出了情感特征的情感倾向和情感强度计算方法,实现了对现有的情感词典进行扩充。利用扩展了的多类别情感词典,计算微博的细粒度情感值,提出了基于层次的微博情感细粒度分类算法。.48— 万方数据东北大学硕士学位论文第5章实验5.1实验基础5.1.1实验数据来源第5章实验本文的基础多类别情感词典采用4.1节所介绍的大连理工大学徐琳宏提供的中文情感词典,实验数据选用NLP&强:CC2013评测任务所提供的微博隋绪标注语料,数据可以由htip://tcci.ccf.org.on/conference/2013/pages/page04tdata.html下载得到。微博隋绪标注语料共包括10000条微博,其中标记了客观句和happiness、like、surprise、anger、disgust、fear、sadness共7种类别情感。本文人工对该数据集去除重复数据并剔除客观句,整理共6000条微博数据,其数据分布如表5.1所示。表5.1实验数据分布情况正向情感负向情感情感类别happmesslikesu/'pliseangerdi跨ustfearsadness文本数量900条1200条700条1000条600条900条总计2800条3200条5.1.2实验环境实验是在一台PC机E迸行的,PC机的配置为CPUlmel@)Core(TM3i5CPU,内存8GB,硬盘500G,字长64位,操作系统为Windows7,Java语言编写,软件开发平台Eclipse3.7上开发。向量的训练和分类使用wekat45】平台,并集成了LIBSVM分类器,LIBSVM参数设置如表5.2所示。..49.. 万方数据东北大学硕士学位论文第5章实验表5.2LIBSVM参数设置:!垒坐乏:兰生堡垒坠!巴婴塑参数名称参数值SVM类型核函数Cache内存惩罚系数可容忍偏差其他C-SVC(classification)Linear40.01.00.001默认5.1.3实验结果评判标准本文采用传统的准确率,召回率和F值对实验效果进行评估。本文中其计算公式如下:准确率(Precision):准确率是指被正确分类到某类的文本数占实际被分类到某类的文本数的比例。即:。。,.正确分到某类的文本数,...⑤从向量集合中抽取80%作为训练集合,剩余20*,4作为测试集合。使用weka中的libsvm分类器对向量集进行训练和分类。5.2.2实验设计及结果分析本文在情感极性分类的实验中,选择向量集合中80%数据作为训练集合,20%作为测试集合。以5.1.3节所介绍的准确率、召回率和F值作为评价指标。为了验证本文提出的隋感极眭分类方法的有效性,本文采用SVM作为分类器,主要进行了两个对比实验。实验1;采用无特征选择、传统的信息增益和本文提出的改进的信息增益分别作为特征选择方法对微博隋感进行极性分类。①不进行特征选择+采用SVM分类器②传统的信息增益特征选择十SVM分类器③改进的信息增益特征选择}SVM分类器实验目的:实验1的目的是验证本文提出的改进的信息增益特征选择方法的有效性。实验结果如表5.3所示。表53不同特征选择方法实验结果对比:!垫!曼i:!竺丝趔婴垡巡垫尘型业望迪翌箜塑无特征选择信息增益改进的信息增益三种方法在准确率、召回率和F值三个指标上的变化J隋况如图5.1所示。.51— 万方数据东北大学硕士学位论文第5章实验图5.I不同特征选择方法准确率、召回率和F值的变化Fig.5.1Changesindifferentfeatureselectionmethodinprecision,recallandFvalues实验结论:由实验l的结果可以看出,使用改进的信息增益方法进行特征选择时,情感的极性分类的准确率和召回率都较传统的信息增益方法略有提高,说明类间集中度和类内均匀度两个因子的引入对信息增益特征选择方法效果有了一定的提升。实验2:采用不进行权重计算、传统的TF-IDF和本文提出的改进的TF一1DF分别作为权重计算方法对微博进行隋感极眭分类。①改进的信息增益特征选择+不进行权重计算+SVM分类器②改进的信息增益特征选择十传统TF-IDF+SVM分类器⑨改进的信息增益特征选择+改进的TF-IDF+SVM分类器实验目的:实验2的目的是验证本文提出的改进的TF-IDF权重计算方法的有效性。实验结果如表5.4所示。表5.4不同权重计算方法实验结果对比墅曼!!!兰g竺望堑!竺2£堡翌堕垫查墅型∑兰堡茎塑曼型!竺i!型巴壁垫鲤无权重计算传统TF-IDFTF-IDF三种方法在准确率、召回率和F值三个指标上的变化晦况如图5.2所示。.52. 万方数据东北大学硕士学位论文第5章实验88.00%86.00%84.00%82.00%80.00%78.00%76.00%74.00%准确率召回率F值图5,2不同权重计算方法准确率、召回率、F值的变化F嘻5.2Changesindifferentweightcalculationmethoditlaccu嗽recall’Fvalue实验结论:由实验2的结果可以看出,与不进行权重计算和采用传统的IT'-IDF权重计算方法相比,本文在使用改进的TF—DF权重计算方法进行权重计算后,情感的极性分类的准确率和召回率方面都有了一定的提高,验证了本文提出的基于情感信息和位置信息加权的TF—IDF方法的有效|生。5.3微博情感细粒度分类实验5.3.1实验思路本节实验主要验证我们第4章提出的基于微博情感细粒度分类方法的有效性,主要包括对多类别情感词典的扩展和基于层次的微博情感细粒度分类算法。实验整体思路如下:①对微博训练数据进行数据预处理,利用算法4.1,生成候选隋感特征。②利用算法4.2,对候选|青感特征进行抽取、倾向判断及强度计算,实现对多类别情感词典扩展。对多类别情感词典扩展的准确性进行判断。③对不同的微博情感细粒度分类方法进行对比。5.3.2实验设计及结果分析本节实验主要对第4章提出的多类别情感词典扩展和微博的情感细粒度分类方法的有效蝴验证,为此,主要进行了两个对比实验。实验1:采用本文提出方法对候选情感特征进行标注,采用3人人工对候选|青感特征进行标注。①根据微博训练语料,实现算法4.1,生成候逛隋感特征。.53. 万方数据东北大学硕士学位论文第5章实验②对生成的候选隋感特征进行人工标注,标注隋感类别和情感强度。③采用本文提出方法对『青感类另Ⅱ和情感强度进行计算。④以人工标注的结果②为基准,将③的结果与②进行对比。实验1的主要过程如图5.3所示。图5.3实验1过程Fig.5.3Processofexperiment1实验1的目的是将本文提出的多类别情感词典的扩展方法与人工标注扩展方法进行对比,验证本文提出的多类别情感词典扩展方法的有效性。实验结果如表5.5所示。表5.5情感类别及强度判断实验结果对比一一!垫堡!:i鱼型避坐堕唑堂堂塑婴些墨塑监型熊竺业垡型型happksslikesurpriseangerdisgustfearsadness情感特征的倾向及强度判断的准确率如图5.4所示。100.00%80.00%60.00%40.00%20.00%O.Oo%l~~一I一一一一-1、~~~一一happiness1ikesurpriseangerdisgustfearsadness图5.4实验结果曲线图Fig.5.4Experimentalresultsgraph实验结论:由表5.5实验结果可以看出,本文所采用的方法,在对候选情感特征的情感类别和强度判断上都取得了较高的准确率。根据图5.4,横坐标表示『青感类别,纵坐标表示准确率,可以看出,对于特征|青感类别的判断准确率要高于情感强度的判断。这是因为情感强度的判别依赖于情感类别判别的准确性,同时多类别情感词典中情感一54— 万方数据东北大学硕士学位论文第5章实验强度分布不均匀也对实验结果有一定的影响。实验2:采用基于SVM,基于多类别情感词典,基于SVM和多类别情感词典三种方法分别对微博进行|青感细粒度分类。①采用基于二分类器SVM的方法对微博进行隋感细粒度分类。②采用基于多类别情感词典的方法对微博迸行情感细粒度分类。③采用基于层次的方法对微博进行情感细粒度分类。④将①、②和③的实验结果进行对比。实验2的主要过程如图5.5所示。一I基于svM的l7l情感细粒度分类II微博训练基于情感词典的.I舟n厶时。p文本情感细粒度分类7I“““~Il,———、\/’.J基于层次的情感JvI细粒度分类I图5.5实验2j螺Fig.5.5Processofexperiment2实验2的目的是将本文提出的微博情感细粒度分类方法与其它微博情感细粒度分类方法进行对比,验证本文提出的基于微博|青感细粒度分类方法的有效性。实验结果如表5.6所示。表5.6微博隋感细粒度分类实验结果对比帮!业堡i堑g婴翌趔!堕唑垡塑!堕鱼堕兰趔!!竺墅鱼地SVM情感词典SⅥⅢ情感词典三个不同的分类方法在准确率、召回率和F值三个指标上的变化f奇况如图5.6所示。.55— 万方数据东北大学硕士学位论文第5章实验图5.6不同分类方法的准确率、召回率、F值变化情况Fig.5.6Ch绷lgesindifferentclassificationmethodhlaccttrate,recall,Fvalue从表5.6和图5.6的实验结果可以看出,相比于基于SVM和基于多类别情感词典的方法,本文提出的基于层次的微博情感细粒度分类,首先运用SⅥvI对微博情感进行极性分类,然后利用情感词典进行隋感细粒度分类,分类效果更为理想,。验证了本文提出的微博情感细粒度分类方法的有效性。从实验结果来看,本文提出的方法在微博情感细粒度分类上较传统的方法有了一定的提高,但准确率、召回率和F值总体还是很低,不足40%,主要有以下原因:1)对于情感的细粒度分类研究正处于起步阶段,人类情感复杂多样,情感的分类不仅仅涉及到文本分类技术,还涉及语言学、心理学等多方面领域。2)中文微博篇幅短小,网络用语丰富,语言的随意性在一定程度上影响了分类效果。3)实验语料稀缺,部分语料不够规范。5.4本章小结本章主要对前文所提出的微博情感的极性分类方法和情感的细粒度分类方法进行了实验验证。首先验证了本文提出的情感极I生分类方法的有效I生,将本文提出的信息增益方法和权重计算方法与传统的方法实验对比,实验结果表明本文提出的改进的信息增益特征选择方法和改进的TF-IDF权重计算方法用于SVM分类时具有较好的效果。最后验证了本文提出的情感细粒度分类方法的有效性,分别使用基于SVM、基于多类另Ⅱ情感词典和基于层次的三种分类方法进行实验对比,实验结果表明本文提出的基于层次的微博情感细粒度分类方法用于微博的情感细粒度分类具有良好的效果。.56.的如∞加0 万方数据东北大学硕士学位论文第6章总结与展望6.1论文总结第6章总结与展望随着微博平台的高速发展和日益普及,越来越多的人们乐于通过微博平台来表达自己的倾向、观点和情感,微博凝聚了大量对社会、政府、个人等有价值的信息,针对微博的情感分析和分类是当今研究的一个热点课题。本文正是根据这一个热点,研究了中文微博的情感分类技术,包括情感的极性分类和情感的细粒度分类。主要工作包括以下几个方面;(1)改进了情感极性分类的特征选择算法。考虑到微博的特殊性,传统的信息增益特征选择算法并没有特征项在不同类之间及同一类之内的分布情况,因此,本文综合考虑了这两个因素,提出了类间集中度和类内均匀度两个因子,对传统的特征选择方法进行了改进。(2)改进了情感极性分类的特征权重计算算法。传统的TF.IDF特征权重计算方法没有考虑特征项的情感信息和位置信息,含有情感的特征项对于文本的情感分类具有更好的代表性,微博的首句和尾句在情感的表达中占有更为重要的位置,因此,本文将特征项的情感信息和位置信息引入TF.IDF计算公式,对传统的TF.IDF权重计算方法进行了修正。(3)对现有的多类别情感词典进行了扩展。本文利用微博训练语料进行候选情感特征抽取,考虑到特征在不同的情感类别下的权重波动性,提出了基于方差的TF.IDF进行特征抽取,对抽取来的特征进行情感倾向判断和强度判断从而将其补充进多类别情感词典。实验证明该方法能够有效扩充多类别情感词典。(4)提出了基于层次的微博情感细粒度分类算法。首先对微博文本进行情感的极性分类,然后再对情感进行细粒度分类。该方法在实验上取得了相对良好的效果。6.2进一步工作实验证明本文对微博情感的极性分类和细粒度分类的研究取得了一定的效果,却依然存在着以下不足之处需要进一步研究:(1)对特征选择和权重计算算法改进,由于综合考虑了特征项的多种因素,..57.. 万方数据东北大学硕士学位论文第6章总结与展望增加了分类所需的时间,相比于传统的基于机器学习的分类消耗时间要长,因此,需要继续优化算法,进一步缩短时间。(2)本文只考虑了每条微博本身特性及情感,并没有考虑到微博的拓扑关系。如微博的评论、回复、转发、粉丝等信息,它们在微博情感倾向的判别中同样起到重要的辅助作用,这是本文在进一步的研究中需要考虑的因素。(3)微博情感的细粒度分类研究正处于起步阶段,本文对情感类别的划分还是比较粗糙,结合心理学、语言学等领域对情感类别进行有效划分是在接下来工作中需要重点考虑的。.58. 万方数据东北大学硕士学位论文参考文献1.张建华,梁正友.基于情感词抽取与LDA特征表示的情感分析方法【J].计算机与现代化,2014,0(5):79.83.2.LiuY’YuX,LiuB,eta1.Sentence—LevelSentimentAnalysisinthePresenceofModalities[M].ComputationalLinguisticsandIntelligentTextProcessing.SpringerBerlinHeidelberg,2014:1—16.3.赵妍妍,秦兵,刘挺.文本情感分析综述【J】.软件学报,2010,21(8):1834—1848.4.EsuliA,SebastianiF.Determiningthesemanticorientationoftermsthroughglossclassification[C].Proceedingsofthe14thACMintemationalconferenceonInformationandknowledgemanagement.ACM,2005:617—624.5.WiebeJ.Learningsubjectiveadjectivesfromcorpora[C].ProceeddingsofAAAI.2000:735.740.6。YAOTF.PENGSW.AstudyoftheclassificationapproachforChinesesubjectiveandobjectivetexts[C].ProceedsoftheNCIRCS,2007:117—123.7.PangB,LeeL,VaithyanathanS.Thumbsup?:sentimentclassificationusingmachinelearningtechniques[C].ProceedingsoftheACL-02conferenceonEmpiricalmethodsinnaturallanguageprocessing—Volume10.AssociationforComputationalLinguistics,2002:79—86.8.AgarwalB,MittalN.Optimalfeatureselectionforsentimentanalysis[M].ComputationalLinguisticsandIntelligentTextProcessing.SpringerBerlinHeidelberg,2013:13—24.9.BespalovD,BaiB,QiY,eta1.Sentimentclassificationbasedonsupervisedlatentn-gramanalysis[C].Proceedingsofthe20thACMinternationalconferenceonInformationandknowledgemanagement.ACM,2011:375—382.10.TaboadaM,BrookeJ,TofiloskiM,eta1.Lexicon—basedmethodsforsentimentanalysis[J].Computationallinguistics,201l,37(2):267—307.11.王素格,杨安娜,李德玉.基于汉语情感词表的句子情感倾向分类研究[J].计算机工程与应用,2009,45(24):153—155..59— 万方数据东北大学硕士学位论文参考文献12。何风英。基于语义理解的中文博文倾向性分析【J】.计算机应用,201l,31(08):2130—2】33.13.Quartc,RenF。SentenceemotionanalysisandrecognitionbasedonemotionwordsusingRen—CECps[J].InternationalJournalofAdvancedIntelligence,2010,2(1):105—117.14.KeshtkarF,InkpenD.Ahierarchicalapproachtomoodclassificationinblogs[J].NaturalLanguageEngineering,2012,18(01):61-81.15.李静,林鸿飞,李瑞敏.基于情感向量空间模型的歌曲情感标签预测模型【J].中文信息学报,2013,26(6):45-50.16.徐琳宏,林鸿飞,潘宇,等.情感词汇本体的构造[J].情报学报,2008,27(2):180一185.17.DavidovD,TsurO,RappoportA.Enhancedsentimentlearningusingtwitterhashtagsandsmileys[C].Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics:Posters.AssociationforComputationalLinguistics,2010:241—249.18.GoA,BhayaniR,HuangL.Twittersentimentclassificationusingdistantsupervision[J].CS224NProjeetReport,Stanford,2009:1-12.19.WangX,WeiF,LiuX,eta1.Topicsentimentanalysisintwitter:agraph—basedhashtagsentimentclassificationapproach[C].Proceedingsofthe20thACMinternationalconferenceOilInformationandknowledgemanagement.ACM,2011:1031.1040.20.SakakiT,OkazakiM,MatsuoYEarthquakeshakesTwitterusers:real-timeeventdetectionbysocialsensors[C].Proceedingsofthe19thintemationalconferenceonW.orldwideweb.ACM,2010:851—860.21.MukherjeeS,BhattacharyyaRFeaturespecificsentimentanalysisforproductreviews[M].ComputationalLinguisticsandIntelligentTextProcessing.SpringerBerlinHeidelberg,2012:475-487.22.谢丽星基于SVM的中文微博情感分析的研究[D】.清华大学,2011.23.王勇,吕学强,姬连春,等.基于极性词典的中文微博客情感分类[J】.计算机应用与软件,2014,31(1):34.37.24.FeldmanR.Techniquesandapplicationsforsentimentanalysis[J]..60.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭