《基于中文微博的情感-分析研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
华中科技大学硕士学位论文AbstractMicroblogisbecomingamostpopularinternetapplication.Accordingtothestatis-tics,morethan100milliontweetspublichedineveryday.Thesetweetsnotonlyconveythedescriptionoffacts,butalsocontaintheemotionalstatesofmassivemicroblogusers.Andtheseemotionalinformationsmaybehelpforusertodecidewhetherbuyaproduct,provideveryimportantreferencevalueforcompaniestomakemarketstrategy,andevenmakemassivedataavailableforgovernmenttomonitoringpublicopinion.Inlightofthis,weproposedasentimentanalysismethodbasedonacombinationofsyntacticdependenciesandtextclassificationtechniquesforChinesetweets.Themethodadoptsthesyntacticdependenciestoperformsentimentanalysis,atthesametime,com-putesaconfidenceforeverytweet.Choosentweetswhichconfidenceaboveacertainthresholdastrainingsamples,trainatwo-stepsentimentclassifierbyusingthecontentfeaturesandmediafeaturesoftweets.Finally,classifythesentimentorientationoftweetsagain.Inaddiation,wealsoproposedamethodthatservescommonemoticonsasthesen-timentclasslabelsoftweetsandimplementsanincrementallearningmethodtotackletheproblemofreal-timesentimentanalysis.Experimentalresultsshowthattheproposedmethoddramaticallyimprovesthepre-cisionandtherecallby6%and3%repectivelycomparedtothemethodthatonlybasedonsyntacticdependencies.Andtheperformanceofourtwofeaturesetsarealsobetterthanunigramfeatures,theprecisionandtherecallbothare88%intermofsubjectiveclassifier,andtheyare72.1%and71.5%forsentimentclassifier.Apartfromthis,themediafeaturesaregoodfortracklingtheproblemofreal-timesentimentanalysis.Keywords:ChineseMicroblog,SentimentAnalysis,Syntacticdependencies,TextClassi-ficationII 华中科技大学硕士学位论文目录摘要···················································································IABSTRACT···········································································II1绪论1.1课题研究背景···································································(1)1.2课题的研究目的和意义·······················································(2)1.3国内外研究现状································································(3)1.4论文的研究内容································································(7)1.5论文结构安排···································································(8)2微博相关研究工作综述2.1微博社会网络的特性分析····················································(9)2.2微博文本内容的语义分析··················································(12)2.3微博中的应用研究分析·····················································(13)2.4本章小结·······································································(14)3基于句法依存关系的微博情感分析3.1句法依存关系概述···························································(15)3.2微博预处理····································································(17)3.3BAG-OF-TARGETS模型························································(20)3.4评价词及评价对象抽取规则···············································(20)3.5情感倾向性判别······························································(23)3.6实验评估·······································································(29)3.7本章小结·······································································(33)4基于文本分类的微博情感分析III 华中科技大学硕士学位论文4.1文本分类技术概述···························································(36)4.2训练样本集的选择···························································(37)4.3样本预处理····································································(42)4.4主客观分类特征······························································(43)4.5情感倾向性分类特征························································(45)4.6实验分析·······································································(46)4.7本章小结·······································································(53)5总结与展望5.1论文工作总结·································································(54)5.2进一步研究方向······························································(55)致谢··················································································(56)参考文献············································································(58)附录1攻读硕士学位期间参与的科研项目·································(64)附录2攻读硕士学位期间取得的科研成果·································(65)IV 华中科技大学硕士学位论文1绪论1.1课题研究背景互联网发展到今天,已经由以静态网页为核心逐渐演变为以用户为核心,即由网页互联转变为“用户互联”。在Web1.0时代初期,网络提供给用户的是一种信息浏览的平台,主要以门户网站为主,比如国外的雅虎以及国内的腾讯、新浪、网易等知名网站。此时的互联网的一个主要特点就是用户被动的接受信息,而无法主动的产生信息。随着Web1.0的发展,网络逐渐为用户提供与其互动的机会,以Google、百度为主的搜索引擎将人们带入了一个以搜索为主的新阶段。21世纪初互联网进入Web2.0时代,用户逐渐成为网络的主角,最具代表性的产品就是博客(Blog)的出现,它将人们带入了个人媒体时代,每个互联网用户都可以成为信息的发布者,同时也是信息的接收者。随后网络的社会化属性逐渐增强,比如社会化标注、Wiki、百度百科等应用使得网络信息的产生不再由公司或少数用户决定的,而是由整个互联网用户协作完成。紧接着以Facebook、人人网、朋友网为代表的社交网络更是将用户现实生活中的社交圈在网络中虚拟化并扩大。在这里,用户可以展示自己、与其他用户进行互动交友、发布自己的观点或看法,从而构建了一个“虚拟的世界”。而将这种社会化属性发挥到极致的就是如今发展的如火如荼的微博了。1微博(Microblog),即微型博客,自2006年以Twitter的发布为标志,微博正式进入人们的生活,它是一种新型的互联网社交服务平台。与传统博客的区别在于每一篇“微博”限定在140字左右,发布快捷方便,同时微博用户之间是基于“关注-被关注”的特殊关系关联在一起的,用户可以随意关注任何人而无需得到对方的同意,这样使得普通用户可以随时了解到自己关注的名人或感兴趣的人的最新动态,这也使得微博信息在网络中呈现出“病毒式”的传播特点。作为一种新型的社交媒体,微博以其独特的用户关联关系和信息发布方式引起了互联网的一股新浪潮,吸引了大量互联网用户的青睐。据统计截至2012年7月,Twitter的注册用户数已经超过5亿,成为仅次于Facebook的第二大社交网站。国内则以新浪微博、腾讯微博为1http://www.twitter.com1 华中科技大学硕士学位论文主,发展态势也相当迅猛,截至2012年5月新浪微博和腾讯微博的注册用户数均已超过3亿,平均每天在这里将产生超过1亿条微博消息。而这些海量的微博数据就是通过用户自己三言两语发布自己生活中的点点滴滴,比如在干什么、身边有什么趣事等,或通过与其他用户互动,比如转发、评论他人微博,表达自己对一些事物、时事的一些看法或感悟而组成的。正是由于微博的这种闲言碎语降低了内容门槛,提高了发布效率,以及微博的病毒式传播特点,使得每个用户都可以成为新闻消息的发布者、自由发表自己的看法、经营自己的品牌。海量的微博数据给用户带来了极大的便利,同时也使得用户在海量数据面前无从下手,不知所措。如何快速有效的利用庞大微博数据资源成为人们关注的焦点。其中,基于微博的用户观点挖掘或情感分析日益成为一个研究热点。然而,目前国1内外的研究大部分都是基于英文微博Twitter进行的,并开发出如Tweetfeel、23Twendz、Twitrratr等相应的实用工具用来实时的监控Tweet的情感倾向,针对中文微博的相关研究则相对较少,并且方法相对传统而没有充分考虑到微博自身的特点,实验效果尚有待改进。因此,切实有效的中文微博情感分析方法的研究工作迫在眉睫。1.2课题的研究目的和意义传统上,商家或政府部门一般会通过社会调查(电话随机抽样、发放调查问卷等)的方式来调查研究用户对其产品的评价或对社会重大事件或政策的看法与意见,然后对调查结果进行人工统计分析得出相应的结果。然而,这种方式一方面受制于抽样系统误差,可能因为干预而导致未必能问出被测者的真实想法,同时抽样数量有限;另一方面这种调查方式无论时间还是费用上代价都很大,因此不适合实时的了解公众的情感状态。然而,随着互联网的发展,尤其是微博的出现,为每个用户提供了一个实时发布自己想法或观点的网络平台,因此在这里含有大量的用户观点或情感信息,比如用户对某产品、股票的评论、对当前热点事件、热映电影的看法、1http://www.tweetfeel.com2http://twendz.waggeneredstrom.com3http://twitrratr.com2 华中科技大学硕士学位论文对某人的爱憎等,而这些信息无论对于用户还是商家或政府都具有巨大的潜在价值。比如帮助用户决定是否选择购买产品或观赏电影;帮助商家了解用户体验、预测电影票房;帮助政府部门监控舆论走向,制定相关政策等。同时,对微博背后的社会价值进行有效的深挖,也应成为执政者了解民意、分析舆情、制定对策的快捷通道。特别是当今社会处于转型期,社会问题和社会矛盾前所未有的激化和突出,及时了解社会动态意义重大。目前针对中文微博的情感分析研究工作尚处于起步阶段,相关工作较为匮乏,待解决的问题还很多,比如未登录词问题、反讽、一词多义等比较具有挑战性的自然语言处理问题,因此,研究的目标就是通过分析中文微博的语言特点,针对中文微博情感分析问题的解决方法作出一些尝试性的探索与创新。1.3国内外研究现状1.3.1基于传统文本的情感分析研究现状情感分析(SentimentAnalysis)也称为观点挖掘(OpinionMining),是指从用户[1]产生的主观性文本中提取出作者对评价对象的情感倾向性,即正面、负面或中性。自2002年BoPang等人第一次提出在线评论文本的情感分析问题后,特别是随着Web2.0的发展,用户表达观点的方式发生了显著的变化,人们既可以在电子商务网站上发布产品评论,也可以在论坛、讨论组、博客、社交网络、微博等网络媒体上针对任何事物表达自己的意见,情感分析日益成为信息检索和自然语言处理领域的一个研究热点问题。由于涉及自然语言处理,这一任务具有一定的挑战性,但同时也具有巨大的实用价值。比如,用户在使用服务或购买商品前总是想了解其他用户对它们的评价;企业同样也需要了解客户们对他们产品或服务的评价以明确自己品牌的认可度,并为品牌经营方针提供参考;另外,对于政府部门来说,对网络上有关当前热点事件的评论进行情感分析,有助于把握舆论导向,制定更好的应对措施。任何文本都是由句子组成的,而句子的基本单位是词,因此通过判断词的情感倾向性是句子级、篇章级情感分析的基础。因此,基于情感词库的方法是一种比较常见的情感分析方法。其基本思想是首先根据一定的规则提取句子或文档中的潜在3 华中科技大学硕士学位论文情感词,比如限定为形容词或一些特定的词性序列等,然后判断提取的潜在情感词的倾向性,最后如果正面情感词占多数则句子或文档为正面,否则为负面情感。Liu[2]1Bing等人针对产品、电影等类型的评论文本,提出一种基于WordNet判断词汇情感倾向的方法,并根据词频加权的统计方法来确定文本情感。他们首先预定义一些情感明确的情感词,然后针对评论句中的形容词利用预定义情感词在WordNet中同[3]义词集和反义词集来判断词的情感倾向性,并不断扩展情感词集。Ding等人在此基础上提出了一种基于全局词汇的方法,该方法利用了外部证据和自然语言表达中[4]的语言约定提出一些额外的规则来提取情感词汇。P.D.Turney则提出一个非监督的学习方法来计算情感词的倾向性。该方法首先对评论文本进行词性标注,然后根据2预定义的5个词性序列模式进行提取候选短语,并基于AltaVista搜索引擎求候选短语与种子情感词的点对互信息值来估计所情感倾向,最后计算文本中所有短语的评价互信息值进而确定文本的情感倾向性。刘群等人在中文词汇的情感倾向性计算方3[5]面基于知网HowNet,通过计算词语义原间相似度的来判断词汇的情感倾向性。段秀婷等人则在Turney提出的PMI-IR算法的基础上将中文博客的情感倾向性分为喜、[6][7]怒、哀、乐四种情感极性。哈尔滨工业大学的杜伟夫则提出一个可扩展的词汇语义倾向计算框架,将词语语义倾向性归结为优化问题,并通过实验验证其有效性。文本情感分类也可以被看作是一个特殊的文本分类问题,而且一般都作为二元分类问题,即褒贬两类。该方法的关键在于数据集的选择、特征选择以及分类模型[8]的选择上。Pang等人首次将文本分类方法应用到情感分类问题上,在电影评审数据集上对朴素贝叶斯、最大熵、支持向量机3种不同的分类算法以及一元文法特征、二元文法特征、形容词以及词性标注等不同的特征进行分析,结果显示采用支持向量机算法结合一元文法特征取得的效果最好。此后基于文本分类的方法成为观点挖掘和情感分析领域的主流方法。在文本主题分类问题中,需要重点考虑的是文本中的客观句,而文本情感分类问题则恰恰相反,决定情感类别的关键往往是文本中的[9]主观句而非客观句。Pang等人提出基于最小图分割的算法来识别主观句,然后再[10]利用主观句提取情感分类特征进行情感极性分类。Wilson等人则提出基于文本中1http://wordnet.princeton.edu2http://www.altavista.com/3http://www.keenage.com4 华中科技大学硕士学位论文的中性实例的分析方法来抽取主观句,在特征选择方面,除了N元语法和词性特征之外,他们还提出了混合单词特征、否定词特征、情感修饰特征、情感转移特征等[11]各类句法特征的情感分类方法。Abbasi等人利用信息增益的方法来选择大量特征集中对于情感分析有益的特征如句子的句法特征(包括N元语法、词类、标点)和结构特征(单词的长度、词类中单词的个数、文本的结构特征)等。除了产品评论、电影评论等用户反馈信息外,像博客、在线日志等个人网站的兴起,用户发表的博文或日志充满着更丰富的个人情感信息,针对这些个人情感数[12]据目前也已进行了很多研究工作。比如,Mihalcea等人利用日志网站LiveJournal中用户发布的已标注高兴或伤心的日志文档,研究用户在一天内什么时间段内最高兴(或伤心),一周内哪天最高兴(或伤心)。另外,有些研究人员还基于如Blogpulse、WebFountain、AmazonWebServices等博客网站中有关用户心情的博文来预测电影[13][14]的票房、书籍的畅销情况。在应用开发方面,出现了基于博客或在线日志的情12感分析工具如MoodViews、WeFeelFine等。1.3.2基于微博文本的情感分析研究现状微博为上亿的互联网用户提供了一个交流分享的网络平台,用户在这里每时每刻都分享着自己生活中的点点滴滴,这些信息中包含大量的用户情感信息,因此微[15]博嫣然已成为了当今最大的情感分析和观点挖掘的数据源。作为一个新型的社会媒体,每个微博用户都是“信息源”、“社会感应器”,通过收集这些“感应器”发出的情感信号就可以得出很多有价值、有意义的信息。比如分析社会经济、油价等指[16]标的变化与公众通过微博表达的情感之间的关系、通过微博情感来测量公众的幸[17][18]福强度、根据微博的情感信息来探测当前股票市场的走势、预测总统大选结果[19]等。利用传统的情感分析方法来处理微博情感倾向性问题是理所当然的,比如Bollen[16]通过统计加权情感词的方法分析用户每天发布的微博中包含的情感信息。[20]Bermingham和Smeaton等人则在微博数据集上对比分析了支持向量机和朴素贝叶1http://ilps.science.uva.nl/MoodViews2http://www.wefeelfine.org5 华中科技大学硕士学位论文斯两种经典分类器的情感分类效果。然而微博与传统在线评论文本相比,存在以下特点:(1)微博文本短且歧义性大;(2)微博内容随意,语法不规范;(3)数据量大,且缺少类别标注;(4)微博中包含大量表情信息、url链接、图片等信息;(5)微博间的转发频率较高,用户间的互动频繁。因此导致不能直接将传统的情感分类方法应用到微博领域,不过目前比较主流的还是基于机器学习的方法,只是在训练集的选择方法上有所不同,大致可以分为:完全监督和非完全监督学习方法两种。完全监督的学习方法是指训练集[21]是通过人工标注得到的,比如Jansen等人在人工标注的微博数据集上利用多项贝叶斯分类模型进行微博情感分析。这种方法的最大缺陷在于人工标注耗时耗力,从而导致训练集规模太小,相应的微博的总数据量却很大,且动态性非常强,使得这种方法无法确保取得较好的效果。非完全监督方式则通过微博中包含的表情或特殊的hashtag等符号来选择训练集,由于这种方式选择的训练集含有一定量的噪声,所[22]以也被称为噪声标签。比如Go等人假设包含表情符号“:)”或“:(”的tweet分别表达积极或消极的情感,他们以此来选择两类情感的训练集,并对比分析了支持向量机、最大熵模型、朴素贝叶斯3种不同的分类算法,实验表明表情符号确实具有[23]情感识别的能力。Davidov等人则利用hashtag,如#sucks,或笑脸符号作为类别标[24]签。Barbosa等人根据BoPang的两阶段情感分类方法,首先训练得到一个主客观分类器和一个情感极性,然后利用主客观分类器识别主观性微博,然后对主观性微博再利用情感极性分类器进行情感分类,而其中的训练集通过TwitterSentiment、[25]Tweetfeel、Twendz三个微博情感分类站点收集得到。Kouloumpis等人利用人工标注的训练集以及通过hashtag、表情符号收集的训练集分别训练分类模型,并对比分析了分类效果,实验证明通过噪声标签得到的训练集确实有效,且hashtag和表情两类噪声标签的效果相当。与基于英文微博的情感分析研究工作相比,基于中文微博的相关研究则相对比[26]较匮乏。目前有刘志明等人针对微博中的电影评论对比分析了支持向量机、朴素贝叶斯、n元语言模型3种机器学习方法的实验效果。谢丽星等人则对基于表情符号的规则、基于情感词典的规则以及基于SVM的分类策略3种情感分析方法在中文微[27]博情感分析方面的效果。但是这些工作都只是将微博文本看做一般文本进行对待6 华中科技大学硕士学位论文的,而没有针对中文微博自身的特点提出比较创新的方法,主要是因为在中文微博情感分析方面面临以下几点挑战:(1)中文微博较英文微博表达方式更灵活,含义更复杂。虽然中英微博都只有140个字符,但中文不同于英文,140个英文字符表达的意思较为单一,但140个汉字却能表达出多种含义,并且经常带有讽刺、比喻等修辞。(2)中文微博较传统中文语法规范程度低。微博中网络用语较多,并且句与句之间经常出现省略主语等现象,加大了情感分析的难度。(3)中文情感词库等基础工具不完善。中文词库、句法分析工具等资源较为匮乏也是中文情感分析较为滞后的重要原因。1.4论文的研究内容论文的主要目的是在中文微博环境下分析微博文本的情感倾向,挖掘微博用户的观点和情感。目前,在文本情感倾向性的研究领域,使用的主流方法和技术可以分为两种,即基于情感词典的方法和基于机器学习的方法。如何根据微博自身的特点,比如文本长度短、内容不规范、动态性强、数据量大、用户互动性强等,设计出切实有效的微博情感分析方法是关键所在。基于此,论文尝试利用句法依存关系和文本分类技术相结合的方法来对微博文本进行情感分类,同时还分析了利用微博表情符号来解决微博实时情感分类问题的可行性。具体研究内容包括以下两个部分:(1)基于句法依存关系的微博情感分析在自然语言表达中,评价对象与评价词以及评价词与评价词、评价对象与评价对象之间往往存在一定的依赖关系,如何利用这些特殊的依赖关系来解决微博评论句子的主客观性及其情感倾向性识别、情感要素抽取等问题是本论文的一个主要研究内容,主要包括:①自定义词典的构建方法;②评价词与评价对象的抽取规则;③评价词与评价对象的情感倾向值计算方法以及微博整体情感倾向性判别。(2)基于文本分类的微博情感分析基于机器学习的方法,尤其是文本分类技术,自BoPang在2002年提出后已经成为目前文本情感分类领域的主流方法,但是在微博情感分析研究上,微博的数据7 华中科技大学硕士学位论文量大,动态性强等特点使得训练集的选择成为该方法的最大困难。另外微博属于一种社会媒体,相比与传统的文本,在特征选择上不仅可以考虑内容特征,比如词性、标点、句法结构等特征,还应该考虑微博特殊的媒体属性,比如微博的来源、微博的发布时间、地点、微博中的多媒体信息等对用户情感倾向存在明显影响的特征。基于此,研究如何有效的选择分类模型所需的训练样本以及切实有效的微博情感分类特征也是论文的一个主要研究内容。包括:①在训练集的选择上,采用两种方法:一是利用句法依存关系分析的结果,通过选择置信度较高的作为训练样本;二是利用微博中含有的表情信息来自动选择训练样本;②在分类特征的选择上,分别针对微博的内容属性和特殊的媒体属性提取两种特征集:微博内容特征集和微博媒体特征集。1.5论文结构安排论文共分5个章节,具体组织安排如下:第一部分绪论,主要介绍课题的研究背景和意义、国内外的相关研究现状以及论文的研究内容和结构安排。第二部分微博相关研究工作综述,主要从微博的社会网络特性、文本内容语义分析及其在不同领域的应用研究等方面对相关研究工作进行综述。第三部分基于句法依存关系的微博情感分析,主要介绍基于句法依存关系的中文微博情感分析方法,主要包括评价词及评价对象的抽取规则和情感极性值的计算方法等。第四部分基于文本分类的微博情感分析,主要介绍利用文本分类技术来对微博文本进行情感分类的方法。在训练集的选择上采用两种不同的方法:一是基于置信度的选择方法;二是基于微博表情符号的选择方法。在分类特征的选择上,则针对微博的内容属性和特殊的媒体属性分别提取微博内容特征集和微博媒体特征集,并验证两种不同特征集的有效性。第五章工作总结与展望。主要对论文的工作进行总结回顾,并提出下一步的工作展望。8 华中科技大学硕士学位论文2微博相关研究工作综述自2006年微博诞生以来,以其惊人的发展速度受到国内外研究人员的广泛关注,近年来在KDD、WWW、SIGIR、WSDM以及其他刊物和会议上有关微博的研究工作层出不穷,因此有必要对这一新兴社会网络的相关研究作一个详细的综述分析,并且笔者已经将该工作发表在中文信息学报上,详见文献[28]。2.1微博社会网络的特性分析一般在线社会网络中存在用户网络和消息网络两类,微博也不例外。不同之处在于,微博社会网络中用户间的关联是基于一种“关注-被关注”的特殊关系建立起来的,微博用户可以任意关注某个用户而不需得到对方同意,同时该用户也可被任意用户所关注,其结果是微博用户社会网络成为一有向图,而不同于一般社会网络中的用户关系无向图。另外,微博中任意用户发布的消息都会被该用户的跟随者收到,跟随者中部分用户会因兴趣将其转发,使更多用户看到这条消息,基于这种特殊的转发关系,使得微博消息网络在传播力上有明显的优势。因此,在微博社会网络的特性分析方面,研究人员主要集中在这两种不同类型的社会网络上,通过分析用户网络拓扑结构,研究其基本社会网络特性以及微博在用户关联关系、消息传播机制等方面所具有的特性。2.1.1微博用户网络的特性分析微博作为一种新兴的在线社交网络,研究人员首先对其用户网络的基本特性进[29]行相关分析。如2007年,Java等人首次对Twitter的基本功能特点进行了详细介绍,并对其基本社会网络特性进行了初步分析,其数据集包括76,177个用户和1,348,543条微博信息,通过传统的社会网络特性分析方法研究Twitter表明微博网络同样表现出一定的幂律分布、小世界等特性。同时,还研究了Twitter中用户的拓扑结构和地理位置等特征,并在两个不同的层次:用户个人行为和用户社区,对用户使用Twitter的意图进行了分析,结果表明用户一般通过Twitter讨论日常事件或者9 华中科技大学硕士学位论文[30]共享信息。2010年,Kwak等人则对整个Twitter进行了定量分析,收集了整个Twitter网站上的4,170万用户信息、14.7亿用户社会关系及4,262个热点话题以及1.06亿条微博消息等大量数据,通过分析Twitter用户间“关注-被关注”的拓扑结构,对Twitter的社会网络统计特性进行了分析,并发现Twitter在一定程度上表现出用户间的互惠性,但其社会网络特性较传统的社会网络存在一定的偏差,比如用户的follow数幂律分布不明显、分割度更小等不同于传统社会网络的基本特性。在用户网络中预测用户影响力、分析用户特征进而对用户进行分类不仅有助于用户推荐系统的开发而且对于研究微博网络中的商业模式有着重要意义,比如根据用户影响力、用户类别实现广告推送等商业活动。微博用户影响力预测方面,目前常用的算法主要包括两类:一类是基于用户关系网络图的拓扑结构,比如Java等人[29][30]利用HITS算法对Twitter用户网络图中的影响力用户进行探测;Kwak等人则[31]利用PageRank算法分析了Twitter用户的影响力;Weng等人还提出了一种TwitterRank算法,在PageRank算法的基础上考虑用户所关注的话题间的相似度和用户关系拓扑结构,从而发现Twitter中与话题相关且具有一定影响力的用户。另一类则基于用户发布的消息在整个用户网络中的传播覆盖度来间接度量一个用户的影响[32]力大小,如Cha等人对比分析了3种不同的用户影响力度量方法:用户的追随者数、用户的微博转发数以及用户在微博中被“@”关联的次数,指出用户的跟随者数越多并不能真正说明该用户在用户群中的认可度越高,而用户的微博转发数以及用户在微博中通过“@”被关联的次数则能更准确的度量用户的实际影响力。基于微博用户网络分析用户特征并根据这些特征进行用户分类也是一个研究方[33]向。比如Krishnamurthy等人通过分析Twitter用户的关注和被关注人数之间的关系分析了用户的特征,将用户分为3类:broadcaster(广播人)、acquaintance(一般人)、miscreant(垃圾虫)。有研究人员通过定量分析用户在使用Twitter的行为模式,探测用户网络中的垃圾消息传播者,并分析用户使用Twitter的目的,如信息查询、信息[34][35]共享、维持自己的社会关系等。另外,Pal等人收集同一个主题下的微博,并提取出微博发布者的节点特征和话题特征,利用提取的用户特征进行话题聚类,最后在不同的话题簇中对用户进行排序,并找出其中最具权威的用户。网络环境下,如何保障用户的安全隐私问题一直都是研究的热点。基于微博用10 华中科技大学硕士学位论文[36]户网络分析安全隐私问题也是微博研究的一个方向。Zhang等人对在线社会网络中的隐私安全问题进行了探讨,提出了在线社会网络包括Twitter等在设计上存在的问题和挑战,给出了一个统一的框架来评价当前及下一代在线社会网络的安全性及[37]隐私保护。Sun等人提出了一种有效废止的方法来提供在线社会网络的隐私保护,一旦联系人从社会组中被移除,将会遏制该联系人访问权限,同时该方法还具有高级特征,如有效搜索加密文件,动态改变社会组成员。2.1.2微博消息网络的特性分析微博与传统博客的区别在于微博文本短小、内容门槛低、发布方便快捷,另外,基于特殊的“关注-被关注”关系构建的微博用户网络,使得微博消息传播网络无论在传播速度上还是传播范围上都具有传统社会媒体无法比拟的特色,因而研究微博消息网络基本特性及其传播机制也是一个研究热点。在文献[38]中Yang和Counts从用户贡献模式(即用户每月发布微博数目的分布情况)、Web导航(即用户发布的博文中含有的超链接的目的指向)和用户社交网的整体结构模式等三个方面对比分析了Twitter与传统博客在信息传播结构上的区别,并发现微博和传统博客中博文的发布量都呈超线性分布,其中微博用户的发布消息频率相对更大。另外传统博文中的[30]超链接大部分属于站内链接而微博中站外链接占多数。Kwak等人基于相关微博间的转发关系针对不同的热点话题构建所谓的微博转发树对微博消息的转发机制进行了研究。首先对微博转发的广度进行分析发现,Twitter中用户获得消息往往并非是消息的直接接收者,即大部分用户并不是该消息的发布者的直接关注者,而是通过用户与用户间的转发间接接收到的消息,并且消息一经转发,不管用户的关注者多少,该消息总会传播到一定数量的用户。其次又对微博转发的深度进行分析发现转发深度97.6%的转发树深度都小于6。这也就说明Twitter消息网络中信息传播范围广并且速度快的特点,即病毒式传播特点。在这种病毒式传播网络中研究如何预测哪些微博可能被转发、转发后的传播速度、传播范围对于微博推荐、垃圾微博过滤具有重要意义,如文献[39,40,41,42,43]等就针对该研究点进行了相关的工作。在微博网络中对实时热点话题的广泛讨论是其一大特色,然而不同类型的话题在传播机制上[44]存在一定的差异。Romero等人基于Twitter中利用“#”符号来标示话题的特点11 华中科技大学硕士学位论文[45]研究分析了Twitter消息网络中不同类型话题的传播特性。Sadikov等人最近还针对消息在传播的过程中导致信息丢失的问题做了相关的研究。通过分析微博的社会网络特性,笔者认为深入研究微博这一新兴社会网络的整体拓扑结构特性无论是对于评估当前的微博应用系统还是设计基于该系统的应用都具有重要意义。然而,目前大部分的研究都是基于国外著名微博网站Twitter,而针对国内微博的相关研究还很少,因此,在我国以新浪微博为代表的在线社会网路快速发展的同时,如果能够深入的研究整个拓扑结构基本特性,为国内在线社会网络未来的良性发展提供重要的保证。2.2微博文本内容的语义分析微博不仅具有社会网络的结构性特征,微博文本内容本身也包含了丰富的语义信息。基于微博内容的语义分析,其研究工作主要是从用户发布的微博内容中挖掘[46][47]出有价值的信息。如Wu等人利用TFIDF与TextRank两种不同的算法来自动提取用户发布的Tweet中的关键词,从而标注用户的兴趣爱好,其中TextRank算法的[48]效果明显好于TFIDF算法。Zhao等人针对微博文本短、垃圾信息多、涉及话题广等特点提出了一个基于上下文的话题相关的PageRank算法对微博消息进行关键词提取和排序,然后利用一个基于概率的得分函数计算关键词短语间相关度和兴趣度,最终,利用这些关键词对某个话题下特定时间段内的所有微博消息进行自动摘要生成。另外还提出了非监督的LDA话题模型的改进形式Twitter-LDA模型,对Twitter与纽约时报在信息传播力(包括内容和速度两方面)进行了对比,并认为Twitter传[49][50]播力更强。Hong等人则利用微博的转发次数作为度量微博流行程度的度量标准,并利用机器学习的方法,通过分析微博的内容、时间、消息和用户的元数据以及用户社交网络图作为特征来预测新的微博发布后多长时间会被转发。Castillo等人[51]针对微博消息的可信度方面进行了相关研究。利用四个特征来度量一条消息的可信度:基于消息的特征如消息的长度、是否存在“#”符号、是否存在问号或感叹号、情感词汇的数目等;基于用户的特征,如用户注册时间、关注人数以及被关注人数、之前发布的微博数等;基于话题的特征,如有多少条微博包含URL等;基于消息传12 华中科技大学硕士学位论文播的特征,如微博转发树的深度和广度等。结果表明,可信度高的微博被转发次数也越多、微博的原始发布者一般集中在少数几个用户中、转发微博的用户往往具有[52]转发的习惯。曹鹏等人则提出了一种Twitter中近似重复的判定方法,统计字符种类和最短编辑距离来判断Twitter中近似重复的消息。该方法可在一定程度上提高微博消息的利用率。2.3微博中的应用研究分析基于微博的应用研究主要包括微博事件监测和预测、实时搜索以及在政府、教育、市场等社会事业方面的应用前景分析。[53]在事件监测和预测方面,Sakaki等人通过实时监控Twitter用户的状态更新来进行地震探测,并实现了一个地震探测系统。该方法首先对目标事件进行分析,提取目标事件的特征属性,然后利用机器学习算法将监控到的所有微博用户的状态信息进行分类,最后对分类结果计算出目标事件信息,利用基于概率的时空模型定位地震源,将每一个微博用户看成是一个传感器,每个用户发表的每一个状态信息被视为传感信息,利用普适计算中普遍使用的过滤方法进行定位地震源。文献[54]将利用图像中的像素概念来表示微博消息所反映出的用户对某事件的兴趣,并结合帖子包含的时间信息,将事件相关帖子表示成类似视频文件的动态结构,用来监测事件发展的形势变化情况。[55]在实时检索方面,Teevan等人通过收集大量相同时间段内的Twitter上和传统搜索引擎上的用户检索日志,并进行对比分析。结果表明,用户在Twitter上的检索请求关键词更热门、长度相对较短且重复率较高;另外,Twitter上的检索请求对应的结果实时性较强,往往包括突发新闻、实时报道、时势动态等。也有不少研究人员在探索利用微博的影响力来促进政府、教育及市场等社会事[56][57]业方面工作。如Barau等人将Twitter应用到英语教学中;Ebner等人针对教育方向,特别是在移动学习方面,研究了Twitter的适用性。13 华中科技大学硕士学位论文2.4本章小结随着微博在线社会网络服务的普及和微博用户的急剧增加,对微博的研究成为目前关注的重点,研究者已经在这方面做了大量的工作,本章对近几年来国内外在该领域的主要成果进行了回顾与总结,综述了微博的研究现状,包括微博用户网络和消息网络的特性分析、微博内容的语义分析及其在不同领域内的应用分析等。14 华中科技大学硕士学位论文3基于句法依存关系的微博情感分析传统的基于情感词典的方法存在两个明显的局限性:(1)仅考虑情感词本身,而忽略了情感词上下文语境,比如周围程度副词、否定词等;(2)无法有效的提取出情感词所评价的对象,而评价对象的抽取已经成为目前观点挖掘领域中一个非常[58]重要和有意义的任务。在自然语言表达中词语与词语之间并不是孤立的,而是以某种依赖关系存在于上下文中,基于此,设计了一种基于句法依存关系的中文微博情感分类方法,具体的设计流程如图3.1所示。微博语料预处理垃圾微博名词短语句法依存自定义情感过滤分词词性标注合并关系分析词库情感指示词修饰词提取提取评价词及评价对象Bag-of-Targets情感极性值计算结果抽取规则库模型评价对象提取图3.1基于句法依存关系的情感分析流程图从图3.1中可以看出,该方法以基于句法依存关系的Bag-of-Targets模型(简称BoT模型)为核心,将每条经过预处理的微博评论按照评价词与评价对象抽取规则映射成为一个BoT模型,然后基于该模型并结合自定义情感词典计算出每条微博评论的情感极性值,从而判断出其情感倾向性。3.1句法依存关系概述句法依存关系分析(DependencyParsing)是自然语言处理领域的一个关键问题,它是指通过分析自然语言表达的文本中词与词间的从属关系,构建出相应的依存关系图或依存关系树(DependencyTree),以此来形式化描述自然语言的句法结构。法15 华中科技大学硕士学位论文国语言学家L.Tesniere在其著作《结构句法基础》(1959年)中最早提出依存关系理论,他主张句子中核心动词是支配其它成分的中心成分,而它本身却不受其它任何[59]成分的支配,所有受支配成分都以某种依存关系从属于支配者。由于依存关系直接反映的是句子中词语间的从属关系而不是强调词语顺序,从而突出了句子中各成分之间的修饰与被修饰关系、支配与被支配关系,分析方法简单明了,同时这种关系有助于信息提取和语义处理,因此论文中尝试利用基于句法依存关系的方法来分析中文微博文本的情感倾向性问题。基于依存语法的句法分析结果依赖于所使用的依存关系库,比如论文中使用斯1坦福大学自然语言处理小组(StanfordNLPGroup)研发的依存句法分析器Stanford2Parser,该分析器目前可以支持多种语言版本,对分词后句子中的每一个词进行词性标注,并且进行序号标记,遇到句号则从头开始标记,然后词与词之间产生依赖关系对。在对中文单词的词性标注以及短语结构分析上采用的是宾夕法尼亚大学中文3树库(PennChineseTreeBank),而在中文句法依存关系分析上则采用的Pi-Chuan[60]Chang等人针对中文句法分析定义的依赖关系,如表3.1所示。4表3.1中文句法依存关系举例依存关系名说明中文例句依存关系nn复合名词服务中心nn(中心,服务)punct标点符号海关统计表明,punct(表明,,)nsubj主谓关系梅花盛开nsubj(盛开,梅花)conj连接关系设备和原材料conj(原材料,设备)dobj动宾关系颁布文件dobj(颁布,文件)advmod副词修饰相当不错advmod(不错,相当)prep介词修饰在实践中逐步完善prep(完善,在)amod形容词修饰跨世纪工程amod(工程,跨世纪)neg否定关系以前不曾遇到过neg(遇到,不)利用StanfordParser句法分析工具对每个句子分析后可生成3个有意义的结果:1http://nlp.stanford.edu/2http://nlp.stanford.edu/software/lex-parser.shtml3http://www.cis.upenn.edu/~chinese/4该表只是列举了本文常用到的文献[60]中所描述的部分依存关系16 华中科技大学硕士学位论文词性标注序列、上下文无关的短语结构树以及句法依存关系对集合。比如对句子“卖家的服务态度不错,送货速度也很快。”进行分词和句法解析后短语结构树如图3.2a所示。然后利用词与词间的依赖关系可以构建如图3.2b所示的依存关系图,其中每个依赖关系都是由一个支配词(图中箭头所指的词)、一个从属词(图中箭尾所指的词)和关系名组成。ROOTIPIPPUIPPUNPVP,NPVP。CPNPVACPNPADVPADVPVProotdeprcmodnsubjrcmodnsubjcpmnnadvmod不错IPNNADADVAadvmodIPDECNNNNROOT卖家的服务态度不错,送货速度也很快。VP速度也很快VP的服务态度VVVV送货卖家(a)短语结构树(b)依存关系图图3.2句法分析结果示例图3.2微博预处理在微博发展的过程中,已经形成其独有的语言表达方式,相比与传统的文本,微博文本不仅在长度上,而且在表达形式上也存在很大的不同,因此在对其进行预处理之前有必要对其所独有的语言表达方式进行详细的分析。(1)“#.*#”符号一般被称为HashTag,用来表示微博所涉及或讨论的话题,可以作为微博主题类别标签。(2)“//@username:”符号用来表示该微博是转发自用户username,而在该符号前面的文本才是当前用户发布的微博内容。(3)“@username”符号用来表示该微博是对用户username直接发布的,即使用户usename没有关注当前用户,他也能够收到该消息,通常该信息在微博正文的开头或结尾。(4)“”此类符号都属于表情符号,对于微博情感识别具有重要的作用。(5)超链接:在微博中所有的超链接都经过压缩后形成的短链接,如“http://t.cn/zjOJ4XP”。另外,微博中还存在大量的图片、视频等多媒体信息,这些17 华中科技大学硕士学位论文信息都是以超链接的形式存在的。基于此,在对微博进行分词前,需要根据对微博数据进行如下清理工作:(1)名词化HashTag标注的文本。在微博的表达习惯中,双“#”符号括起来的都是话题,在这里将这种文本看做一个整体进行单独处理,并规定其词性为名词。另外,由于微博评论只有140个字,而140个字往往关注的话题只有1-2个,而HashTag的数目超过3个的往往都是广告微博或垃圾微博,应予以删除。(2)过滤掉微博中的超链接文本。由于对微博文本进行句法依存关系,其中的网页链接、图片链接、音频链接等信息是没有用的,需要过滤掉。(3)过滤掉微博中的“@username”文本。同样的,这种“@”信息对于句法分析也没有用,需要过滤掉。(4)提取微博的原内容。由于一条微博可能是对其他微博的转发,所以需要利用“//@username:.*”信息将其前面的原微博文本提取出来。(5)提取表情信息。往往微博中的表情符号能够很形象的体现出作者对讨论话题的情感倾向性,因此在这里需要将微博语料库中所有的表情提取出来并手动标注出其情感类别存放在自定义情感词库中,同时在分词时,对于表情单独处理。(6)规范化微博内容。在微博中包含一定量的英文字符以及繁体字,为了方便后续处理,将微博内容中的英文字符均转化为小写,繁体字转为简体字。同时,将所有的标点符号都转化为半角格式。3.2.1分词、词性标注微博数据经过清理后,根据“。”、“?”、“!”等标点符号对微博依次进行分句。1针对每个分句,利用中科院的中文分词工具包ICTCLAS5.0进行分词,该分词工具是目前国内外中文分词效果中较好的,准确率高达98.45%。同时,由于微博语料库中含有大量的未登录词,比如网络流行语、微表情、微话题等,因此在分词后需要对结果进行修正。对于网络流行语、微表情,可以通过手工收集并区分褒贬类别来构建完善的情感词集;对于微话题,则可以通过特殊的“#”符号来识别,直接作为一个整体而不进行分词,并将词性标注为名词。1http://ictclas.org/18 华中科技大学硕士学位论文采用斯坦福大学的StanfordParser工具对分词结果进行词性标注。其中,主要使用的词性标注包括:名词(NN)、人称代词(NR)、时间代词(NT)、名词短语(NP)、形容词(VA|JJ)、动词(VV|VE)、副词(AD)、连词(CC)、的(DEG)、标点符号(PU)等。3.2.2名词短语合并一般评价对象都为名词或名词短语,而有些评价对象是多个名词或名词短语的组合,比如评价对象“ipad的屏幕”、“中国的物价”中包含ipad、屏幕、中国、物价等名词,因此为了更准确的将评价对象提取出来,需要对标注后的名词或名词短语序列按照一定的规则进行合并。定义合并步骤如下:(1)如果一个连续的若干个词语的标注序列满足模式:NN|NR|NT+NN|NR或者NN|NR|NT+DEG+NN|NR,则将其合并为一个词语,并标注为NN;(2)不断迭代步骤(1)直到无新的合并操作;(3)迭代完成后,词性标注为NN或NR的直接选取为潜在评价对象;比如对于评论句子“卖家的服务态度不错,送货速度也很快。”,分词和词性标注后的结果如下:卖家/NN的/DEG服务/NN态度/NN不错/VA,/PU送货/VV速度/NN也/AD很/AD快/VA。/PU按照上述步骤(1)~(3)可以对该词性标注序列进行重构后得出如下结果:卖家的服务态度/NN不错/VA,/PU送货速度/NN也/AD很/AD快/VA。/PU从经过重构的分词结果来看,可以准确的提取出评价对象为:“卖家的服务态度”和“送货速度”。3.2.3句法依存关系分析采用斯坦福大学的StanfordParser工具对分词后的句子进行句法依存关系分析。基于不同词语间的特殊依赖关系,可以通过已知的情感词来提取出与之相关的评价对象或新的情感词,同样也可以通过已提取的评价对象来找出存在依赖关系的新的19 华中科技大学硕士学位论文评价对象或情感词。比如上面的例句可以得到下面的依存关系:nsubj(不错-2,卖家的服务态度-1)root(ROOT-0,不错-2)mmod(快-7,送货速度-4)advmod(快-7,也-5)advmod(快-7,很-6)dep(不错-2,快-7)此时,如果已知“不错”是一个情感词,那么它的评价对象就是与之存在依存关系的“卖家的服务态度”,同样,如果已知“送货速度”是评价对象,那么“快”就是其评价词。其中,数字表示词语在句子中的位置,详细的中文语法依存关系可参见表3.1。3.3Bag-of-Targets模型Bag-of-Targets模型(简称BoT模型)是根据词袋模型(Bag-of-Words,简称BoW模型)的基本思想提出来的。词袋模型就是将自然语言表达的文本内容看做是一个无序的词汇集合,忽略词语将的语法依赖关系。而在这里,处理目标是评论文本中的评价对象及其情感倾向性,因此可以将每个评论文本看成一个由情感对象(Target)组成的集合,即Bag-of-Targets。每个Target做为评论文本的基本组成单元,其定义如下:Target::objectevaluatordistancemodifierssc,,,,oreTarget是一个五元组,object表示评价对象名,evaluator表示与评价对象存在特殊依赖关系的评价词,distance则是表示评价对象与评价词evaluator间的距离,modifiers表示与evaluator存在修饰关系的所有程度或否定修饰词,score表示当前Target的情感得分,即评价词evaluator对评价对象的情感强度。其中,distance和modifiers主要用来计算评价词evaluator的极性强度。具体计算过程见第3.5节。3.4评价词及评价对象抽取规则在英文文本的评价词往往为形容词,评价对象为名词或名词短语,而对于中文文本来说,极性词语不仅局限为形容词还可能是副词、名词、动词等词性的词语。比如句子“这个产品真垃圾!”和“这袋垃圾可真臭啊!”中,同为名词的“垃圾”20 华中科技大学硕士学位论文在不同上下文中则分别是评价词和评价对象。针对如何在不同语句中确定其中的评价对象及其评价词,制定了以下7条规则:规则3.1:如果依存关系对中,存在主谓关系(nsubj)且满足图3.3所示的依赖关系,即支配词的词性为形容词或名词,从属词的词性为名词或名词短语,则可以将支配词判定为评价词,从属词为评价对象。DEP=nsubj评价词评价对象POS∈{VA,NN}POS∈{NP}图3.3评价对象及评价词提取规则3.1规则3.2:如果依存关系对中,存在动宾关系(dobj)且满足图3.4所示的依赖关系,即支配词的词性为形容词、名词或动词,从属词的词性为名词或名词短语,则可以将支配词判定为评价词,从属词为评价对象。DEP=dobj评价词评价对象POS∈{VA,NN,JJ,VV}POS∈{NP}图3.4评价对象及评价词提取规则3.2规则3.3:如果依存关系对中,存在修饰关系(如形容词修饰amod、关系从句修饰rcmod、关联修饰assmod、插入词修饰prnmod等)且满足图3.5所示的依赖关系,即支配词的词性为名词或名词短语,而从属词的词性为形容词、名词或动词,则可以将支配词判定为评价对象,从属词为评价词。DEP∈{amod,rcmod,assmod,prnmod}评价对象评价词POS∈{NP}POS∈{VA,NN,JJ,VV}图3.5评价对象及评价词提取规则3.3规则3.4:如果依存关系对中,同时存在主题关系(top)和属性关系(attr)或动宾关系(dobj)且满足图3.6所示的依赖关系,即两种依赖关系的从属词同时依赖于同一个支配词,则可以将top依赖关系中的从属词判定为评价对象,而attr或dobj依赖关系的从属词判定为评价词。21 华中科技大学硕士学位论文DEP∈{attr,dobj}DEP=top评价词助动词评价对象POS∈{VA,NN,JJ,VV}POS∈{VC,VE}POS∈{NP}图3.6评价对象及评价词提取规则3.4规则3.5:如果依存关系对中,存在否定关系(neg)或副词修饰关系(advmod)且满足图3.7所示的依赖关系,即支配词的词性为形容词、名词或动词,从属词词性为副词或否定词,同时支配词与句子中的其他词不存在规则3.1~3.4所列的依赖关系,则可以将支配词判定为评价词,而与之存在依赖关系的其他名词或名词短语为评价对象。DEP∈{*}DEP∈{neg,advmod}评价对象评价词否定词/副词POS∈{NP}POS∈{VA,NN,JJ,VV}POS∈{AD}图3.7评价对象及评价词提取规则3.5规则3.6:针对利用规则3.1~3.5提取的评价对象,如果存在与之形成名词复合依赖关系(nn)的名词性短语,则将两者进行合并为新的评价对象。规则3.7:针对利用规则3.1~3.5提取的评价词,如果存在与之形成否定关系(neg)或程度副词修饰关系(advmod)的修饰词,则将所有有关的修饰词提取出来以计算情感词的极性强度。这里需要注意的有两点:(1)同一个词语在一个句子中可能会依赖于多个词语而导致满足以上的规则中的多个;(2)部分微博正文内容长度较短或仅含有几个表情符号,从而导致根本无法构成句法依赖关系。对于第一种情况,根据依存关系的紧密程度对规则依次进行了优先级排序。其中,规则3.6主要是在规则3.1~3.5基础之上用来对所提取出的评价对象进行扩展的,规则3.7则是提取相应的评价词的修饰词以计算其情感极性强度,因此只需要对规则3.1~3.5进行优先级排序即可。在依存关系中,主谓关系和动宾关系最紧密,修饰关系次之,属性关系则较低,另外,规则3.5主要是针对规则3.1~3.4无法识别的情感词而设计的,因此规则3.1~3.5优先级依次降低。对于第二种情况,则直接采用情感词匹配的方法,而相应的情感对象为距离最近的“#”符号括起来的话题。22 华中科技大学硕士学位论文3.5情感倾向性判别基于BoT模型,利用上述的抽取规则可以将每条微博的评论句子映射为一个情感对象Target的集合。针对每个Target,提取其中包含的评价词输入到自定义情感词典中,输出得到相应的情感极性和强度,然后利用评价对象和评价词间的距离以及与评价词存在修饰关系的修饰词来修正情感极性和强度,最终得到当前Target的情感得分。再将同一评论句子中具有相同评价对象名的Target聚合在一起相加求出对应评价对象的情感极性和强度,最后把评论句子中包含的所有评价对象的情感倾向值相加求平均作为整条评论句子的情感倾向值。3.5.1构建自定义情感词典评价词的情感倾向性一般可以分为3种,即褒义、贬义和中性。由于目前在中文情感词倾向性判别方面缺乏一个比较全面的情感词库,尤其是随着网络的发展,网络流行语层出不穷,构建一个全面的情感词库是一件非常困难和具有挑战性的事1情,因此以HowNet情感词典、NTUSD情感词典、微博搜索API和自定义扩展词库为基础构建了一个较为全面且支持可扩展的情感词库,该情感词库的组成结构如图3.8所示。贬义词库褒义中性词库词库自定义情感词库情感计算微博搜索模块API程度级动态扩别词库展词库图3.8自定义情感词库的结构图1http://nlg18.csie.ntu.edu.tw:8080/opinion23 华中科技大学硕士学位论文从词典的结构图3.8中可以看出,自定义情感词库主要由5部分构成:褒义词库、贬义词库、中性词库、程度级别词库、动态扩展词库。(1)褒义词库:主要来源于HowNet情感词典中的正面评价词(3730个)、正面情感词(836个)以及NTUSD情感词典中的正面情感词(2810个),其情感强度统一设为+1。(2)贬义词库:主要来源于HowNet情感词典中的负面评价词(3116个)、正面情感词(1254个)以及NTUSD情感词典中的正面情感词(8276个),其情感强度统一设为-1。(3)中性词库:对于HowNet情感词典和NTUSD情感词典中类别不一致的词汇均判定为中性词,其情感强度统一设为0。(4)程度级别词库:主要来源于HowNet提供的219个不同级别的程度副词,如“百分之百”、“极其”、“很”、“略微”等,将这些词语分别分配一个程度值,用来对其修饰情感词进行情感强度修正,同时该词库还手动添加了如“不”,“不能”等否定词用来对情感词倾向进行置反。(5)动态扩展词库:该词库中的每个词都被标注为褒义、贬义或中性,其中一个主要来源是由人工手动添加的一些微博中常用的情感词,如褒义词“给力”、“碉堡”、“正能量”、“中国好xx”,贬义词“坑爹”、“脑残”、“官二代”、“富二代”、“我能说脏话吗”、“我再也不相信爱情了”、“感觉不会再爱了”,中性词“围观”、“神马”、“浮云”、“屌丝”等。另一个来源则是基于PMI-IR算法利用微博搜索API的检索结果自动计算所得,主要是针对那些无法在情感词库中匹配成功的情感词。计算方法类似于文献[4]利用搜索引擎的检索结果来估算候选情感词与种子情感词的点互信值,不同之处在于:①方法考虑到是微博环境下进行情感分析,因此使用的是微博搜索提供的检索结果来估算;②方法中褒贬种子情感词不再只有一个,而是由多个组成,并且每组种子情感词中都加入一定量的网络流行语;③候选情感词的情感极性不是通过最大PMI值决定,而是由两者的比值决定。具体的计算流程如下:a.选定种子情感词。褒义种子词:高兴、快乐、自豪、喜悦、幸福、兴奋、给力、碉堡、正能量;贬义种子词:咒骂、愤怒、生气、谴责、愤恨、伤心、悲剧、坑爹、脑残;24 华中科技大学硕士学位论文b.按照公式3.1估算候选情感词word与任意种子情感词seed之间的点互信息值。Hitsword(&seed)PMIwordseed(,)log(3.1)2HitswordHitsseed()()其中Hits(keyword)表示以keyword为查询关键字利用微博搜索API获得检索记录数目。c.利用公式3.2和公式3.3分别估算候选情感词word在褒贬种子情感词集上的互信息值。nPMIwordPOS(,)PMIwordseed(,i)(3.2)i1mPMIwordNEG(,)PMIwordseed(,j)(3.3)j1其中n,m分别表示褒义和贬义种子情感词集的个数。d.通过候选情感词word在不同种子情感词集上的点互信息值的比值来确定word的褒贬倾向性,具体的计算公式是:PMIwordPOSn(,)1SOword()(3.4)PMIwordNEGm(,)1positive,SOword()3/2Polarityword()negative,SOword()2/3(3.5)neutral,2/3SOword()3/2其中,公式(3.4)中加1操作主要是平滑作用,防止出现点互信息值为0的情况。公式(3.5)是通过判断候选情感词在不同极性种子词集上的点互信息值的比值范围来决定其极性而不同于P.D.Turney的方法利用差值的正负性来决定,因为PMI-IR算法存在一定的误差,而差值无法将这种误差有效的体现出来且仅通过正负值来判断候选词的极性往往使得判为中性词的概率大大减小,因此采用比值的方法,通过判断比值的取值范围来决定候选情感词的极性,不仅减小了由于误差而带来的影响,也能够使得部分中性词得到合理的极性识别。这样通过动态扩展词库,就为自定义情感词库提供了一个动态扩充的接口,从而满足实际的需要。25 华中科技大学硕士学位论文3.5.2评价词情感倾向值计算一般来说,不同的评价极性词都会拥有不同程度的情感倾向,即使同一个评价极性词在不同上下文语境下都会拥有不同的情感极性。例如:“赞”和“不错”虽然都是正面倾向的词,但是其情感程度却不相同,“赞”的情感程度显然要比“不错”的情感程度强;“价格高”和“品质高”,虽然评价词都是“高”,但前者表示负面,而后者表示正面。但是由于目前缺乏公认的包含情感倾向程度以及不同领域内的情感词典,在文中未考虑情感词的情感程度及其评价对象的所属领域,自定义情感词典中正面情感词的倾向值统一设为+1,负面情感词的倾向值统一设为-1,中性词倾向值设为0,即:1,ifevaluatorpositivescoreevaluator()0,ifevaluatorneutral(3.6)1,ifevaluatornegative在评价词被不同程度的修饰词修饰时,其情感极性强度会随之相应的增加或减少,甚至极性会被置反,即由褒义变为贬义或由贬义变为褒义。修饰词可以分为两类:程度副词和否定词。对于程度副词,将HowNet情感词典提供的219个程度级别词语细分为强化程度副词和弱化程度副词两类,其中强化程度副词会加强评价词的情感极性强度,如包含“极其|extreme/最|most”、“超|over”、“很|very”和“较|more”义原的程度级别词语集合(178个);弱化程度副词会减弱评价词的情感极性强度,如包含“欠|insufficiently”和“稍|-ish”义原的程度级别词语集合(41个)。另外,每个不同级别的程度副词都分配了相应的情感强度影响因子,如表3.2所示。从表3.2可以看出,程度副词的影响因子从强化程度词到弱化程度词以0.5的间隔不断递减。其中影响因子为1.0时表示相应的评价词不存在程度副词对其进行修[28]饰。对于否定词的处理上,则采用了比较特殊的处理方法,而不是像LiuBing等人针对否定词修饰的评价词极性进行直接取反。比如句子“这个产品不是很好!”,如果简单的将“很好”的情感倾向性直接反转的话将得到很强的负面倾向性,但是“不是很好”的负面倾向性是很弱的,甚至可能表达出较弱的正面倾向性。为了有效的26 华中科技大学硕士学位论文解决这种情况,考虑了在一个句子中修饰同一个评价词的否定词与其他修饰词之间的相对位置关系,即如果程度副词位于否定词与评价词之间,则该程度副词的影响因子取原影响因子的倒数,否则影响因子不变,而否定词的影响因子始终为-1。表3.2程度级别修饰词的影响因子分布程度级别修饰词影响因子(factor)类别包含的义原极其|extreme/最|most2.5强化程度副词超|over/很|very2.0较|more1.5弱化程度副词欠|insufficiently/稍|-ish0.5最后,评价词的情感倾向值是由所有与其存在依赖关系的修饰词(包括程度副词和否定词)的影响因子与基于自定义情感词典得到的初始情感倾向值相乘得到,即:scoreevaluator()factormodifier(i)*scoreevaluat(or)(3.7)i其中,公式(3.7)中的factormodifier()表示评价词evaluator的第i个修饰词的i影响因子。3.5.3评价对象情感倾向值计算由于同一个评价对象可能会依赖多个评价词,而这些评价词对评价对象的依赖强度是不一样的,可以利用公式(3.8)来度量评价词和评价对象间的这种依赖强度。1depevaluatorobject(,)(3.8)distanceevaluatorobject(,)其中distanceevaluatorobject(,)表示评价词evaluator与评价对象object在依存关系树中距离,即距离越大,依赖性就越小。对于评论句子中抽取出的每个Target,其情感得分就是由评价词的情感倾向值以及评价词与评价对象间依赖强度所决定的,可利用公式3.9计算。27 华中科技大学硕士学位论文scoreTarget()scoreTargetevaluator(.)*depTargetevaluatorTa(.,rgetobject.)(3.9)scoreTargetevaluator(.)Targetdistance.当一条评论句子中抽取出的每个情感对象Target的情感得分计算完成后,将具有相同评价对象object的Target聚集在一起,将它们的情感得分进行加权平均即为评价对象object的情感得分。假设评论句子对应的Target集合为A,利用公式(3.10)计算评价对象object的情感得分。scoreTarget()Targetobjectobject.scoreobject()(3.10){target|targetAtargetobject,.object}如果scoreobject()的值大于0则表示当前评论句子对object的情感倾向为褒义,小于0则为贬义,否则为中性。3.5.4句子的情感倾向值计算对于整条评论句子sentence的情感倾向值则是由该句子所评价的所有对象的情感倾向值决定的,计算公式如下:Nscoresentence()scoreobject(i)(3.11)i1其中,N表示句子中评价对象的数目。同样的,如果scoresentence()的值大于0则表示当前句子的情感倾向为褒义,小于0则为贬义,否则为中性。比如,例句“这个产品不是很好”中,可以提取出一个Target,即:<产品-2,好-5,<不是-3,很-4>,3,?>其中情感得分是未知的,具体计算步骤如下:Step1:利用公式(3.6)计算评价词“好”的情感倾向值为+1;Step2:求出修饰词“很”和“不是”的影响因子分别为2.0和-1.0,又由于“很”位于否定修饰词“不是”和评价词“好”的中间,应该将其影响因子修改为0.5;Step3:根据各修饰词的影响因子及评价对象与评价词间的距离,利用公式(3.7)、公式(3.8)和公式(3.9)求出该Target的情感倾向值:-1*0.5*1/3=-1/6。28 华中科技大学硕士学位论文Step4:由于该例句只有一个Target,评价对象也只有一个“产品”,因此评价对象“产品”及例句的情感倾向值均为-1/6,表现为贬义。3.6实验评估3.6.1实验数据集1实验数据来自于NLP&CC2012提供的中文微博情感分析评测数据集,该数据集由腾讯微博xml文件格式提供,包括20个话题,共有2023条微博,包含3416条句子,其中观点句有2173条,包括407条正面情感句子和1766条负面情感句子,每个句子中包含的评价对象的位置偏移量、情感倾向性以及该句子的整体情感倾向性都已经标注好,数据示例如图3.9所示。图3.9NLP&CC2012中文微博评测数据集示例3.6.2实验设计和评估指标提出的方法参加了NLP&CC2012中文微博情感分析评测任务中的3个子任务:观点句识别、情感倾向性判断和情感要素抽取,因此实验设计及各项评估指标都是依据评测任务的大纲来制定的。各评测子任务及评价指标详细介绍如下:(1)观点句识别针对每条微博中的各个句子,要求判断出该句是观点句还是非观点句。如果能够从句子中提取出且情感得分不为0的情感对象Target,则认为该句子为观点句。该任务使用正确率(Precision),召回率(Recall)和F值(F-measure)来评价观点句的识别结果。其计算公式如3.11所示。1http://tcci.ccf.org.cn/conference/2012/29 华中科技大学硕士学位论文#systemcorrectopinionY_()Precision#system_proposedopinionY()#systemcorrectopinionY_()Recall(3.11)#goldopinionY()2PrecisionRecallFmeasurePrecisionRecall其中,#gold是人工标注结果的数目,#system_correct是提出的方法计算出的结果中与人工标注匹配的数目,#system_proposed是提出的方法计算出的结果数目。(2)情感倾向性判断针对每条观点句,要求判断其情感倾向。观点句的情感倾向可以分为正面(POS),负面(NEG)和其他(OTHER|NEU)。其中,OTHER|NEU表示该观点句为中性或无法明确的归为正面或反面。如果观点句子中所有评价对象的情感倾向性单一,则可以直接分为正面或反面,否则分为其他(OTHER|NEU)。该任务同样使用正确率(Precision),召回率(Recall)和F值(F-measure)作为评价标准。(3)情感要素抽取情感要素抽取任务要求找出微博中每条观点句作者的评价对象,同时判断针对评价对象的观点极性。针对本章方法的来说,如果对于包含某个评价对象的所有Target情感倾向性单一,则可以直接分为正面或反面,否则分为其他(OTHER|NEU)。该任务分为两个不同评价方式:精确(Strict)评价和宽松(Lenient)评价。在精确评价中,要求抽取的评价对象的offset和标注完全相同并且评价对象极性也相同时才算正确。在宽松评价中,一个结果包含4个参与评测的元素:句子微博wid,句子sid,评价对象区间(由起始位置和终止位置构成)和极性,即r=(wid,sid,s,p)。首先定义两个结果之间的覆盖率c,如公式3.12所示。'ss'''ifpp&&widwidsidsid''crr(,)s(3.12)0其中s和s'为两个结果r和r'中情感对象的区间,p和p'为对应的极性,wid和wid'为微博id,sid和sid'为句子id。|*|表示计算区间的长度。两个结果集合R和R'之间的覆盖率C则定义为公式3.13:30 华中科技大学硕士学位论文''CRR(,)crr(,)ij(3.13)rRirRj''假设提交的结果集合为R',标注结果集合为R,则精度、召回率和F值计算公式如3.14所示:'CRR(,)Precision'R'CRR(,)Recall(3.14)R2PrecisionRecallFmeasurePrecisionRecall其中|*|表示计算集合中元素的数目。3.6.3实验结果分析为了评估基于Bag-of-Targets模型的方法(简称BoT方法)在微博情感分类问题[28]上的实验效果,这里以LiuBing等人提出的基于情感词库的方法作为Baseline(简称BoW方法)进行对比分析。在BoW方法中,同样将评价对象限定为名词,利用关联规则挖掘方法提取评论文本中的名词频繁项集作为评价对象。针对任务1,如果语句中存在情感词且包含评价对象,则把语句分类为主观句,否则分类为客观句;对于任务2,则比较正面情感词和负面情感词的数目,选择数量较多的一方作为句子的整体情感倾向;对于任务3,主观句中评价对象的情感极性则取决于距离最近的评价词的情感极性。另外,任务的结果分析采用微平均和宏平均两种方法来评价准确率、召回率和F1值。微平均以整个数据集为一个评价单元,计算整体的评价指标;宏平均以每个话题为一个评价单元,计算参评系统在该话题中的评价指标,最后计算所有话题上各指标的平均值。(1)观点句识别结果图3.10给出了两种方法在观点句识别任务中微平均和宏平均的3个指标值。其中图3.10a表示微平均,图3.10b表示宏平均。从任务1的实验结果上可以看出,BoT方法无论是在微平均下还是宏平均下,各项指标都要优于BoW方法,比如在召回率上大约有5%左右的提高,正确率上更是高出20%左右。究其原因可能是由于评测任31 华中科技大学硕士学位论文务定义的观点句只限定于对特定事物或对象的评价,而BoW方法仅考虑了句子中是否包含情感词,对于该情感词是否依赖于某个评价对象是无法预知的,但BoT方法却可以通过句法依存关系来判断,因此准确率会更高。图3.10观点句识别结果(2)情感倾向性判断结果图3.11给出了两种方法在情感倾向性判断任务中微平均和宏平均的3个指标值,其中3.11a图表示微平均,3.11b图表示宏平均。图3.11情感倾向性判断结果从任务2的实验结果上可以看出,无论是在微平均下还是宏平均下,BoT方法仍然在正确率上大约高出BoW方法20%,但是在召回率上并没有明显的提升。究其原因可能是由于任务2是在任务1的基础上进行的,即两种方法是在各自识别出的观点句集合上来判断句子的情感倾向性,而两者使用的情感词典是相同的。另外微博文本规范性较差,使得BoT方法在句法依存关系的分析上存在偏差,导致最终结果存在偏差。32 华中科技大学硕士学位论文(3)情感要素抽取结果图3.12分别给出了情感要素抽取任务中严格评价方法和宽松评价方法下微平均和宏平均的3个指标值。其中图3.12a、3.12b分别表示严格评价方法下的微平均和宏平均,图3.12c、3.12d分别表示宽松评价方法下的微平均和宏平均。图3.12情感要素抽取结果从实验结果来看,BoT方法在情感要素抽取任务上无论是严格评价方法还是宽松评价方法都相比于BoW有较明显的优势,但是BoT方法的各项指标并不是很好,正确率也只有12%~22%,召回率则只有9%~14%,F1值大约10%~17%。一方面是由于微博数据内容短小、不规范、变化频率较大,分词、词性标注以及句法依存关系分析都存在一定的偏差;另一方面是由于微博讨论的主题较为分散,而不像传统评论文本主题较集中,从而使得情感要素的抽取存在很大的困难。3.7本章小结通过对微博文本进行句法依存关系分析可以得到其中所包含的词语间的依赖关33 华中科技大学硕士学位论文系,并基于这些依赖关系设计了一系列评价词与评价对象的抽取规则。利用这些规则构建了一种通用的情感对象模型Bag-of-Targets模型(简称BoT模型),从而将每条微博评论句子有效的映射为Target的集合。最后在NLP&CC2012中文微博评测数据集进行了实验评估,该模型对于解决微博评论句子的主客观性及其情感倾向性识别、情感要素抽取等问题具有一定的效果。34 华中科技大学硕士学位论文4基于文本分类的微博情感分析在微博情感分析研究上,微博的数据量大,动态性强等特点使得训练集的选择成为文本分类方法应用到微博情感分析领域的最大困难之一。基于此,提出两种训练集选择方法,一种是利用置信度的概念选择句法依存关系方法分析的结果集中可信度较高的结果作为训练样本的方法,另一种则是利用微博情感符号进行自动标注训练样本的方法。同时,在训练分类模型的特征选择上,分别针对微博内容属性和特殊的媒体属性,提取了微博内容特征集和微博媒体特征集。具体的分类方法流程图如图4.1所示。微博语料训练样本集句法依存关系未知情感极性微博表情符号的置信度的微博分类主客观分类过正面情感微博负面情感微博中性微博程主观性微博训练学习情感倾向性分主客观分类特主客观分类器类特征集合征集合情感倾向性分类微博关系图训练学习情感倾向性分学习过程类器正面情感微博负面情感微博图4.1文本分类方法流程图从图4.1中,可以看出该方法主要可以分为以下几个模块:(1)训练集的选择:利用置信度和微博表情符号两种不同选择标准来提供分类算法所需的训练样本。35 华中科技大学硕士学位论文(2)学习训练过程:主要分为主客观学习和情感极性学习两个过程,每个过程都需要各自特征集,其中不仅考虑了微博的文本内容特征还考虑了微博自身特殊的媒体特征,比如转发关系、微博来源等。但是由于NLP&CC2012评测数据集只提供了微博的文本内容,而无法分析微博自身特殊的媒体属性,因此基于新浪微博API收集了大量的微博数据,其中包括微博属性信息、微博用户信息以及微博间的转发信息等。(3)分类过程:对于未知情感类别的微博文本,首先利用主客观分类器进行判断其主客观性,如果是主观性微博则再由情感极性分类器进行判断其情感类别,即正面情感还是负面情感。4.1文本分类技术概述在具体介绍方法前,对文本分类算法做个简单的概述。文本分类是指根据文本自身的各种特征,按照某种分类算法自动地将待分类文本划分到预定义的类别中。一般的分类过程如图4.2所示。训练学习特征提取特征选择特征表示训练集统计统计量学习分类器文本模型测试集特征提取特征表示类别分类过程图4.2文本分类的过程从图4.2可以看出,文本分类的一般过程包括:(1)对训练样本进行特征提取和选择;(2)使用选择的特征将文本表示成模型;(3)根据选择的分类算法训练分类器;(4)提取测试文本的特征并表示成模型;(5)提交给分类器进行分类,得到分类结果。其中训练模型阶段使用的分类算法是讨论的重点。目前在情感分类领域,常用的分类算法包括:朴素贝叶斯分类(NaïveBayesian)、K最近邻分类(K-Nearest-neighbor)、支持向量机(SupportVectorMachine)、最大熵分类(Maximum36 华中科技大学硕士学位论文Entropy)等。主要使用朴素贝叶斯分类器,因此这里重点对该分类算法的基本原理进行详细介绍。首先给出以下几个符号的说明:设DD,,...,D表示N个文本训练集;TT,,...,T表示从训练文本中选择的M个特12N12M征;d{,,...,ttt}表示文本d在M个特征上的权值;CC,,...,C表示文本的类别;Ni12M12K表示Ci类训练集中的样本数。朴素贝叶斯分类是一种基于概率的分类算法,其理论基础是贝叶斯定理。通过各类别的先验概率和特征的分布计算未知文本属于某一类别的后验概率,最终选择后验概率值最大的类别。假设给定未知文本X,朴素贝叶斯分类器将预测X属于类Ci,当且仅当:PCX(|)PC(|X)1jKj,iij这样,最大化PCX(|)。其中PCX(|)最大的类Ci成为最大后验假设。根据贝ii叶斯定理:PXCPC(|)()iiPCX(|)iPX()由于PX()对于所有类为常数,只需要PXCPC(|)()最大即可。类Ci的先验概iiK率PC()i可以通过PC()iNiNj来估计。为了降低计算PXC(|i)的开销,朴素贝j1叶斯分类算法提出类条件独立的朴素性假设,即特征TT,,...,T是相互独立的,这样,12MMPXC(|i)PtC(|ji)PtC(|12i)PtC(|i)Pt(M|Ci),而对于概率PtC(|ji)则可j1以通过训练集中Ci类中特征Tj的值为tj的元组数除以Ci类的元组数来估计。理论上讲,朴素贝叶斯分类算法具有最小的出错率,但由于类条件独立性假设的不正确性,在实践中并非总是如此。不过,在实际应用中,该分类算法在大型的数据集上表现出来难得的速度和准确度。4.2训练样本集的选择[8][9]文本分类方法既可以解决文档级的情感分类也可以解决句子级的情感分类。37 华中科技大学硕士学位论文虽然140个字符限制的微博文本对于中文来说可以表达出多个句子,但是通过统计分析NLP&CC2012中文微博情感评测数据集和新浪微博数据集得知:平均每条微博大约包含1.6~1.7个句子,而每条句子仅包含10~17个词语左右,如表4.1所示。表4.1数据集的统计信息NLP&CC2012评测数据集新浪微博数据集微博总数2,0235,082,447句子总数3,4168,006,782平均每条微博的句子数1.71.6平均每条句子的词语数10.715.3针对两个数据集中包含不同数目句子的微博分布情况以及包含不同数目词语的句子分布情况进行了统计分析,如图4.3所示。从图4.3a可以看出两个数据集中大概70%的微博仅包含一条句子,包含2~3个句子的大约占20%;从图4.3b可以看出40%~60%的句子中包含不到10个词语。因此,直接对整条微博进行主观性判别和情感倾向性判别。图4.3句子数及词语数的分布情况另外,由于NLP&CC2012评测数据集针对的是句子级情感识别任务,因此这里首先需要对评测数据集进行预处理:如果微博中存在主观性句子则认为该微博是主观性微博,同时根据主观性微博中正负面情感句子的数目来决定微博的情感倾向性,即如果正面情感句子占多数则微博的情感倾向为正面,否则为负面。训练文本分类器时所选择的训练样本集的质量是影响分类器的关键因素之一,通过手工标注训练样本集是保证样本质量最有效的也是目前的最主流方法。然而在38 华中科技大学硕士学位论文微博环境下,微博数据实时性高、动态性强、数据量大,使得手工标注的方法显得力不从心,基于此,提出两种自动选择训练集的方法:基于置信度的选择方法和基于微博表情符号的选择方法。4.2.1基于置信度的训练集选择方法从第3章的结果可以看出,基于句法依存关系的方法在主客观识别和情感倾向性判断上正确率较高,但召回率较低。为了提高召回率,提出置信度的概念,用来为每条句子的情感倾向值计算出一个可信度值(介于0~1之间),然后对微博中所包含的句子进行加权平均即为相应微博的可信度值,最后从中选择出可信度较高的微博作为训练集。该方法基于两个假设:(1)具有单一情感倾向的句子得到的情感倾向值要比具有多种情感倾向的句子的情感倾向值置信度高;(2)如果句子有多种情感倾向,正面情感倾向值和负面情感倾向值相差越大,句子的整体情感倾向值的置信度越高。计算公式如式4.1所示。其中scoresentence()表示句子sentence的情感倾向值,由公式(3.11)计算所得;Npos和Nneg分别表示句子sentence中正面情感的评价对象的个数和负面情感的评价对象的个数。1,ifscoresentence()0scoresentence()confidencesentence(),else(4.1)NNposnegscoreobject()scoreobject()ijij1利用公式(4.2)计算微博tweet的情感倾向置信度。Nconfidencesentence()iiconfidencetweet()(4.2)N其中N表示微博中的句子数,sentencei表示第i个句子。4.2.2基于微博表情符号的训练集选择方法在互联网文本中,各种丰富的表情符号,比如字符型表情“:)”、“:(”,图形化表情“”、“”,甚至还有动画类表情等都是用来帮助用户能够简单、形象化的表39 华中科技大学硕士学位论文达出自己想要表达的情感信息。在微博环境下,表情符号的使用更是普遍,因此利用这些信息是非常有助于分析微博文本的情感倾向性的,表4.2中列举了包含表情符号的微博实例。表4.2包含表情符号的微博实例编号微博实例情感倾向性1正面有了宝宝后的全家可爱睡姿大全!@全球潮宝宝2负面ohmygod~你们这是要闹哪样啊~~@创意集市3正面爱吃辣椒的孩子们有口福了哦4负面Barnes&Noble也快撑不下去了。5中性昨晚你在刷#跨年演唱会#吗?对哪一段印象最深?6加多宝太厉害了,一线卫视的跨年晚会都是它冠名,好不容易翻到一个负面没有晚会的卫视,居然还是加多宝的广告!跨年满眼都是加多宝从表4.2可以看出,微博文本中的表情符号十分形象化且准确的标注了对应微博的情感倾向性,比如实例6是以一种讽刺的方式来表达对“加多宝广告”的负面情感,但如果仅基于情感词库或者句法依存关系来判断情感倾向性的话,可能就会误判断为正面的情感,然而通过表情符号却可以很容易的判断出是负面情感。一般在英文微博Twitter上最常使用的都是字符型的表情,而在中文微博中则常使用一些图形化或动画类的表情符号,对新浪微博数据集中包含表情的微博分布情况以及包含不同表情数目的微博分布情况进行了分析,分别如图4.4a和图4.4b所示。图4.4新浪微博数据集中表情符号的分布情况40 华中科技大学硕士学位论文在图4.4a中,N表示不包含表情符号的微博比例,Y则表示包含表情符号的微博比例。可以看出,在新浪微博数据集中含有表情符号的微博大概占总微博数的19.1%左右,而这些微博中大概有75.0%的微博含有1个表情符号,使用2个表情符号的微博则占有16.7%左右,使用2个以上的微博则仅占8.3%左右,如图4.4b中曲线ALL所示。这说明微博文本中包含表情符号是非常普遍的,且每个包含表情的微博中表情符号的数目相对单一,即包含的情感信息也是相对单一的。值得注意的是,图4.4b中的曲线ALL、POS、NEG、NEU分别表示包含各类表情符号、正面情感类表情符号、负面情感类表情符号以及中性类表情符号的微博分布情况。基于此,如果能够利用这些表情符号来为微博数据进行情感类别标注将会得到1数量可观且质量较高的训练样本集合,而事实上这就是一个“众包”服务,即用户利用表情符号来标注自己发布的微博文本中所表达的情感倾向。在新浪微博平台下,大概包括图形化表情1803个,动画类表情190个,另外,从微博文本中提取了12个字符型的表情符号,手动的从这大约2000个表情中选择了143个作为情感类别标签,记为E,并将它们划分为3个情感类别,即正面情感、负面情感、中性,如表4.3所示,在图4.4b中则分别对应POS、NEG和NEU。表4.3新浪微博表情符号的情感类别情感类别数量举例正面情感65负面情感61中性17在新浪微博数据集中,包含表情符号的微博集合中大概有92%的微博包含上表中所列举的143个表情符号集E中的任意一个。其中,包含正面情感类别的占51%,包含负面情感的占37%,而中性微博则仅占12%,如图4.5所示。为了保证训练样本集的均衡性,还采取了以下两个规则对于中性微博训练集进行扩充:(1)如果微博的发布者是一些企业、组织、新闻媒体或杂志,比如湖南卫视、1http://zh.wikipedia.org/wiki/%E4%BC%97%E5%8C%8541 华中科技大学硕士学位论文时光网、人民日报等,则认为该微博是中性微博。因为这些微博账号发布的消息往往都是一些事实或新闻类的描述信息。(2)如果微博正文以“【.*】”符号开始则认为该微博是中性微博。通过分析发现,在新浪微博中,如果正文以“【.*】”开始往往都是一些事实描述、生活小知识或科普小知识等中性消息。图4.5包含不同类别的表情符号的微博分布情况4.3样本预处理在第3章中,针对微博的独有表达习惯进行了详细的说明,并提出了一系列预处理方法。在这里同样使用了垃圾微博过滤、繁简体转换、分词及词性标注等处理步骤,同时还对分词后的文本进行了停用词过滤,但是对于微博中的一些特殊表达习惯不是采用之前直接过滤掉的方法,因为这些特征很可能有助于分类效果的提升,因此这里将微博中的一些特殊表达进行规范化,以达到约减分类特征空间的目的,主要处理步骤如下:(1)“@username”的规范化:正如第3章所述,微博正文中的“@username”表示该微博是直接对用户“username”发送的,在这里统一将“@username”替换成“
此文档下载收益归作者所有