基于汽车领域的中文微博意见挖掘-研究

基于汽车领域的中文微博意见挖掘-研究

ID:34039636

大小:2.78 MB

页数:81页

时间:2019-03-03

上传者:U-22505
基于汽车领域的中文微博意见挖掘-研究_第1页
基于汽车领域的中文微博意见挖掘-研究_第2页
基于汽车领域的中文微博意见挖掘-研究_第3页
基于汽车领域的中文微博意见挖掘-研究_第4页
基于汽车领域的中文微博意见挖掘-研究_第5页
资源描述:

《基于汽车领域的中文微博意见挖掘-研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

万方数据 万方数据 上海交通大学学位论文原创性声明本人郑重声明:所呈交的学位论文《基于汽车领域的中文微博意见挖掘研究》,是本人在导师的指导下,独立进行研究工作所取得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。学位论文作者签名:日期:年月日万方数据 万方数据 上海交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权上海交通大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。保密□,在年解密后适用本授权书。本学位论文属于不保密□。(请在以上方框内打“√”)学位论文作者签名:指导教师签名:日期:年月日日期:年月日万方数据 万方数据 上海交通大学硕士学位论文基于汽车领域的中文微博意见挖掘研究摘要文本意见挖掘具有相当高的实用价值,一直以来都是自然语言处理领域中的一个重要的研究方向。Web2.0技术和移动互联网不断发展,使得微博成为了一个新信息发布和传播的平台。微博中每天能产生出大量的信息,这些信息中蕴含了巨大的价值。由于在微博信息中存在大量不同用户对产品的评论数据,对这些非结构化的数据进行有效抽取,形成细颗粒度的结构化的意见信息无论对用户还是商家而言都具有很好的实用价值。如何使用自然语言技术对微博文本进行意见挖掘值得进行深入地研究。本文主要研究汽车领域中的微博产品评价信息挖掘,通过对微博文本进行分析,提出了一个针对中文微博的细颗粒度的意见分析框架。本文中微博文本意见挖掘分为三个步骤:陈述定界,主题抽取和倾向性分析。在对微博文本进行陈述定界时,本文利用了自然标注的思想,使用了小句的概念,对微博文本中的长句进行切分,对小句中进行主题抽取,形成陈述。最后,文本通过基于统计学习的方法,引入主题相关的特征计从而算得到文本的倾向性结果。本文基于实际的项目需求,改善了一般文本意见挖掘流程,在陈述定界中引入小句的概念,在意见倾向性分析中引入了基于主题的特征。通过实验比较,发现在进行小句划分时,使用决策树分类方法,加入情感特征,可以达到78.5%的准确率。在小句倾向性分析中,本文使用支持向量机的方法,比较不同特征下的分类结果,发现使用本文提出的基于主题相关词的特征可以取得比较好的效果,准确率达到81.9%。这些实验结果验证了本文提出的方法是合理和有效的。I万方数据 上海交通大学硕士学位论文关键词:中文微博,意见挖掘,倾向性分析II万方数据 上海交通大学硕士学位论文ASTUDYONCHINESEMICROBLOGOPINIONMININGBASEDONAUTOMOBILEDOMAINABSTRACTOpinionmininghasbeenahotresearchfiledinnaturallanguageprocessingbecauseofitstechnologyandapplicationvalue.WiththedevelopmentofWeb2.0andmobileinternet,microbloghasbecomeanewplatformforpublicationanddisseminationforinformation.Everyday,microblogcanproducealargeamountofinformationwithagreatvalue.Thereisalotofdatainmicrobloginvolvingusers’reviewsinsomeproducts.Itisreallyavaluabletechnologytoextractstructuredinformationfromtheunstructureddatainmicroblogbothfortheusersorbusinesses.Sohowtousenaturallanguagetechnologyeffectivelytodoopinionminingformmicroblogisworthyofdeepstudy.Thispaperstudiesopinionminingonmicroblogproductreviewsinautomobiledomain.Andthroughtheanalysisonthesetexts,thispaperpresentsananalysisapproachofthefine-grainedviews.Thispaperdividethemicroblogopinionminingintothreephrases:statementdelimitation,subjectextractionandsentimentanalysis.Inthephraseofstatementdelimitation,weintroducetheideologynaturallanguageprocessingbasedonnaturallyannotatedWebresources.AndwedividealongsentenceintoseveralshortsentenceswhicharealsocalledsmallsentenceinChinese,thatis,clauses,tohelpdelimitatingthestatement.Thenweextractsubjectfromthesmallsentence.Finally,weusestatisticallearningmethodsaddingatopic-basedfeaturetoanalyzethesentimentofthestatements.ThispaperpresentsaChinesemicroblogfine-grainedopinionminingapproachfocusontheautomobiledomain.Ourresearchisbasedontheactualrequirementfromsomeproject.WeimprovetheprocessofgeneralIII万方数据 上海交通大学硕士学位论文opinionminingbasedonthestudyofthemicroblogtexts.Inordertoenhancetheperformanceoftheminingresults,weintroducetheconceptofsmallsentenceandtopicrelatedfeatureswhenanalyzingthesentimentofthestatements.Usingdecisiontreeandfindingaddingemotionalcharacteristicswecanachieve78.5%accuracyratewhendividingthecommaintotwocategories.Insentimentanalysis,weuseSVMtotrainthedataandfigureoutthatusingthetopicrelatedfeaturescanobtainbetterresultupto81.9%accuracyrate.Theexperimentalresultshaveshownthatourapproachisreasonableandeffective.KEYWORDS:Chinesemicroblog,opinionmining,sentimentanalysisIV万方数据 上海交通大学硕士学位论文目录基于汽车领域的中文微博意见挖掘研究·····················································I摘要·································································································IABSTRACT·······················································································III第一章绪论·······················································································11.1研究背景···················································································11.2相关研究···················································································21.3本文工作···················································································51.3.1工作动机··············································································51.3.2难点描述··············································································51.3.3本文贡献··············································································71.4论文结构···················································································8第二章意见挖掘研究···········································································92.1意见挖掘概念和任务····································································92.1.1持有者识别································zhikuquan20150721···········································92.1.2主题抽取·············································································102.1.3陈述定界·············································································102.1.4倾向性分析··········································································112.2本文微博意见研究方法································································112.2.1微博文本特点分析·································································112.2.2本文意见挖掘方法·································································122.3本章小结··················································································14第三章基础资源和工具说明·································································173.1语料························································································173.1.1语料说明·············································································173.1.2语料预处理··········································································173.2标注························································································173.2.1陈述定界标注·······································································183.2.2倾向性分析标注····································································193.3本体构建··················································································19V万方数据 上海交通大学硕士学位论文3.4极性词典构建············································································213.4.1通用领域极性词典·································································223.4.2领域相关极性词典·································································253.5分类算法简介············································································273.5.1决策树················································································283.5.2支持向量机··········································································293.5.3朴素贝叶斯··········································································303.6文本分析工具············································································303.7本章小结··················································································30第四章陈述定界················································································334.1基本概念··················································································334.2相关研究··················································································334.3本文陈述定界方法······································································344.3.1微博文本分析·······································································344.3.2小句研究·············································································374.3.3陈述定界方法·······································································394.4主题抽取································zhikuquan································20150721··················404.5算法介绍··················································································404.5.1特征选择·············································································404.6实验、分析和讨论······································································424.6.1实验数据·············································································424.6.2实验标准·············································································424.6.3实验结果和讨论····································································424.7本章小结··················································································45第五章微博意见倾向性分析·································································475.1微博倾向性相关研究···································································475.2基于主题相关词的微博倾向性分析·················································495.2.1主题相关词汇抽取·································································495.2.2特征选择·············································································505.2.3分类器选择··········································································525.3实验、分析和讨论······································································525.3.1实验数据·············································································52VI万方数据 上海交通大学硕士学位论文5.3.2实验结果和讨论····································································535.4本章小结··················································································54第六章总结和展望·············································································556.1总结························································································556.2展望························································································55参考文献······················································································57致谢······························································································63攻读硕士学位期间已发表或录用的论文···················································65zhikuquan20150721VII万方数据 zhikuquan20150721万方数据 上海交通大学硕士学位论文图录图表1-1微博实例1............................................................................................6图表1-2微博实例2............................................................................................6图表2-1意见挖掘系统流程图[43].....................................................................13图表2-2系统流程图..........................................................................................13图表2-3汽车中文微博意见挖掘流程图.........................................................14图表3-1逗号分类标注界面.............................................................................18图表3-2小句标注实例.....................................................................................18图表3-3倾向性标注实例.................................................................................19图表3-4汽车本体结构示意图[37].....................................................................20图表3-5本体中车型的XML表示..................................................................21图表3-6本体中特征的XML表示...................................................................21图表3-7知网中词汇的表示形式.....................................................................23图表3-8极性词典XML表示[42]......................................................................23图表3-9词之间的语法关系[39].........................................................................25图表3-10抽取规则[39].......................................................................................26zhikuquan20150721图表3-11ID3算法概要[47]................................................................................28图表4-1微博实例3..........................................................................................34图表4-2微博实例4..........................................................................................38图表4-3不同特征组合的分类结果.................................................................44IX万方数据 zhikuquan20150721万方数据 上海交通大学硕士学位论文表录表格4-1论坛文本中标点使用情况分析表....................................................36表格4-2微博文本中标点使用情况分析表.....................................................36表格4-3微博文本中两种逗号分布表.............................................................36表格4-4文本特征说明表.................................................................................41表格4-5情感特征说明表..................................................................................41表格4-6文本特征分类结果.............................................................................42表格4-7情感特征分类结果..............................................................................42表格4-8所有特征分类结果..............................................................................43表格4-9不同特征组合的分类结果.................................................................43表格5-1微博观点句识别最好和平均结果.....................................................48表格5-2微博观点要素抽取最好和平均结果.................................................48表格5-3NLP&CC2013任务1最好结果........................................................48表格5-4小句划分与不划分倾向性分类结果.................................................53表格5-5不同特征对微博陈述的倾向性判断的效果.....................................53zhikuquan20150721XI万方数据 zhikuquan20150721万方数据 上海交通大学硕士学位论文第一章绪论1.1研究背景Web2.0的发展改变了信息产生和传播的方式,越来越多的人使用互联网作为了解和获取信息的渠道,同时,随着移动终端的普及,互联网慢慢呈现出了移动化的趋势。第31次《中国互联网络发展状况统计报告》1指出截止2012年底,我国的网络化普及率已经达到42.1%,其中,通过手机上网的用户数量持续几年都保持着快速的增长势头。可以看到,移动终端,如智能手机、平板等的普及,加速了移动网络的发展,微博在这样的背景下得到了快速的发展。相关数据显示,微博已经成为了手机上除了即时通讯、搜索和音乐之外最主要的应用。2012年,我国微博用户规模达到了3.09亿,其中有65.6%的微博用户使用移动终端。从这些数据中可以看出,微博和移动终端的融合,使得微博具有更方便、更快速的优势,越来越多用户选择微博作为发布评论的平台,在不知不觉中,微博对网络舆情的传播起到了不容小觑的作用,它作为一个新兴的传播平台正慢慢开始显现出它的重要性。每天,微博中都能产生出大量的数据,在这些数据中有相当一部分的数据是用户对于产品的评论信息。利用自然语言处理技术从这些海量信息中抽取出结构化的评论信息,无论是对用户还是对商家而言都具有实际的价值。到目前为止,已经有大量的研究工作围绕着文本中的意见挖掘展开。在文本意见挖掘领域,国内外的相关研究已经积累了相当多的经验。国外较早开始针对微博文本的意见研究,主要针对的是英文微博,如Twitter的研究。在中文文本倾向性研究领域,中文信息学会信息检索专业委员会从2008开始已经连续举办了五届中文倾向性分析评测比赛,积极推动了中文领域的文本倾向性研究的发展。在前四届中文倾向性分析评测中主要针对的文本的短语级、句子级和篇章级展开研究,研究的对象是评论文本。但是,随着微博兴起,微博中潜在1http://211.80.82.10/download/726539/1117526/4/pdf/251/188/1362121162491_444/P020130122600399530412.pdf-1-万方数据 上海交通大学硕士学位论文的研究价值也逐步被大家认同,第五届中文倾向性分析评测中添加了针对微博的意见研究,主要研究微博的观点句和观点要素的识别。CCF自然语言处理与中文计算会议(NLP&CC)专注于自然语言处理领域和中文计算领域的学术和应用创新,从2012开始举办评测,研究微博中的观点句、情感倾向和情感要素等。相比于传统意见文本,如博客、产品评论等篇幅较长的文本,微博文本无论是在形式或内容上都有着巨大的差异。微博文本受到140个字数的限制,内容精简、结构自由、形式多样,同时作为一个新兴社交化信息平台,微博还具有及时性强、大数据、分裂式传播、语言网络化等特点,简单使用传统文本分析技术来处理微博文本不能达到很好的效果。国外最早开始对微博文本的意见研究,但总体上说,中文微博文本意见挖掘研究还处于初级探索阶段。微博中潜藏的应用价值表明了对中文微博进行意见挖掘研究无论是在理论上还是在实际的应用中都是很有意义的。所以,如何利用微博特点,挖掘微博文本中用户对产品的真实感受,是一项艰巨而有意义的工作。1.2相关研究在自然语言处理领域,文本意见挖掘一直以来都是热点研究方向。文本意见挖掘的目的在于理解和挖掘文本中的意见信息[1-3],通常将文本的意见倾向性分为正面、中性和负面。主要有两种情感倾向性的研究方法:基于规则和基于统计的方法。基于规则的方法主要使用情感词,并结合一定规则找出文本中的意见话题,进行情感倾向判断。Turney[4]研究汽车和电影领域中的评论文本,提出一个半监督的方法,使用互信息计算评论中出现的短语与贬褒基准词之间的距离,得到短语的情感,最后将一个句子中所有词的距离平均值作为该句子的情感倾向性。基于统计的方法将情感倾向性问题当做文本分类问题处理,选取适当的特征,采用监督或者半监督的方式训练得到分类模型,并进行分类,最常用的分类器有支持向量机,朴素贝叶斯,决策树和最大熵等。Pang和Lee[5]较早提出将机器学习的方法应用到情感分析上,他们针对电影评论,使用机器学习的方法对整个评论进行倾向性判定,他们比较了朴素贝叶斯分类器,最大熵分类器和支持向量机这三个分类器在电影评论倾向性分类中的结果,发现支持向量机的分类效果是最好的。-2-万方数据 上海交通大学硕士学位论文相关研究表明,在文本意见分类中,基于统计的方法效果更好一些。目前为止,国内外大部分的文本意见研究工作主要集中在对传统文本分类研究上[6],对微博文本的意见挖掘工作相对较少。随着社交化网络的发展,人们获取和表达信息的渠道发生了很大的转变,Twitter的发展使得研究者纷纷意识到微博中存在的应用价值,相继开展了研究。在Twitter相关的研究中,研究者研究Twitter中的应用价值,如研究Twitter中公众评论对政治问题的影响[7],对总统选举结果的预测[8],还有研究者使用Twitter来预测股票的走势[9]。从这些研究中可以看到Twitter作为一种新型信息载体的特殊价值。Pak和Paroubek[10]研究Twitter在文本意见挖掘中的价值,指出了Twitter在文本意见分析中具有以下优点:1)不同的用户通过Twitter发表意见,通过Twitter可以采集到各种不同用户的意见,Twitter上的信息呈现出多元化的特点,有助于得到全面客观的产品评论;2)Twitter数据量大,每天都能产生海量数据,为文本意见研究提供了大量的资源;3)Twitter的用户群从个人到政府,甚至还有总统,收集不同阶级和社会群体的意见成为了可能。Bermingham等人[11]比较微博和博客在倾向性分类中的表现,发现使用微博文本进行倾向性研究可以达到74.55%的准确率,具有更好的效果,证明了微博文本是研究文本意见倾向性中的有效文本。根据研究角度的不同,微博文本意见挖掘研究可以分为两大类:主题无关和主题相关的研究。主题无关的研究指的是针对整个微博进行意见倾向性分析,不考虑文本描述的对象。目前,绝大多数的微博文本意见倾向性研究都是主题无关的。Kumar和Sebastian[12]使用基于语料和基于词典的方法,从微博文本中找到可以表达观点的词,并利用语义的方法计算得到观点词的正负情感倾向和情感强度,最后对微博文本中的表情、观点词等因子进行打分得到整条微博的情感倾向。Davidov等人[13]提出一种监督学习的方法,研究不同的特征对于微博文本倾向性分类的作用,提出了一个微博文本情感分类的框架。Barbosa等人[14]提出一种两步走的情感倾向性分类方法,首先对微博进行主客观区分,再对主观性微博进行正负面分类,在主客观分类中他们综合Twendz2,TwitterSentiment3和2http://twendz.waggeneredstrom.com/3http://twittersentiment.appspot.com/-3-万方数据 上海交通大学硕士学位论文TweetFeel4的结果,得到有噪数据,通过一定规则进行数据处理,并在此基础上进行正负面判断,提出了一个鲁棒的情感分类模型。Read[15]研究微博中的表情对情感分类的作用。Go等人[16]在Read[15]的研究基础上,提出了一种远距离监控(DistantSupervision)的方法,使用带有表情的微博作为训练文本,使用朴素贝叶斯和支持向量机的方法进行微博文本情感分类。主题相关的研究指的是在研究微博文本的情感倾向时考虑文本涉及的特定领域。Nasukawa和Yi[17]使用基于规则的方法,分析微博中的语法结构,通过手工设定的规则找出不同主题的意见倾向。Hu等人[3]在研究文本倾向性考虑了主题相关情感特征。Jiang等人[18]考虑到微博文本的主题相关性,在文献[14,19]的系统框架上利用主题相关性,通过构架图模型进行了优化,在进行分类时,通过主题相关性,以及tweet之间的转发关系,将同主题的微博聚集在一起,并通过实验证明这种主题相关的模型相比主题无关的模型具有更高的准确性。上述的研究工作多数都是围绕着英文文本展开的。由于中英文化上上差异,中文和英文在语言表达方式、语言结构,以及词汇语法上存在着巨大的差异[20]。Yu等人[21]在他们的研究报告中指出新浪微博和Twitter在用户群、微博内容,以及实现模式上都存在较大的差异。近几年来,针对中文微博文本的研究也取得了一定的进展,韩忠明[22]等人为了解决中文微博中变形词、新词的问题,提出了一种新词发现的算法,使用自动机计算微博文本的倾向性。庞磊等人[23]使用表情和情感词设计出一种自动筛选和标注语料的方法,并使用这些语料进行训练。谢丽星等人[24]提出一种基于层次结构的多策略中文微博倾向性分析方法,针对中文微博内容丰富、主题发散的特点,研究微博篇章级和句子级的情感倾向性,除了考虑到微博中的链接、表情等特征外,还考虑到了微博中简单省略的现象,在实验的过程中使用了主题无关和主题相关的特征,提出在引入主题相关的特征后,准确率从66.467%提高到67.283%。从上文的论述中可以看到,目前针对微博文本意见的研究主要集中在英文微博文本上,中文微博意见分析还处于探索阶段。同时也可以看到,中文微博文本对于意见分析研究价值随着微博普及正在逐步被认同,国内重要的评测COAE和NLP&CC相继添加了对微博文本的意见分析任务。总体而言,中文微博的意见挖掘还处于初步探索阶段,如何对微博文本进4http://www.tweetfeel.com/-4-万方数据 上海交通大学硕士学位论文行深入研究,利用微博特点进行有效的意见分析需要更多的研究和努力。本文希望通过研究汽车领域中的微博特点,设计出一个细颗粒度微博意见挖掘的方法。从目前的研究中可以发现主题相关的研究具有更好的表现,同时从应用的角度出发,主题相关的特征也更具实用价值。1.3本文工作1.3.1工作动机本文的研究工作基于实验室的横向项目,该项目是一个汽车信息处理系统,主要处理汽车论坛中的评论信息,从评论中抽取和整合出结构化的信息。主要的步骤是将抓取下来的信息进行去重、净化和分类处理,然后通过意见分析,从中抽取细颗粒度的意见信息。该系统的主要目标是处理论坛中的非结构化文本,形成结构化信息,通过整合为用户提供有价值的信息。由于微博在舆情传播上的作用和影响越来越明显,项目的后续研究目标是处理微博中的意见信息,从新浪微博文本中提取汽车方面的意见,本文就是在这样的背景开展工作的。本文通过分析和比较论坛中的评论文本和微博文本的异同,提出一个适合于微博文本的细颗粒度意见挖掘方法,为项目做好技术上的准备。本文在已有的研究基础上,针对微博文本的特点,结合项目中遇到的实际问题,对基于汽车领域的中文微博意见挖掘进行了初步的探索。1.3.2难点描述本文研究的对象是中文文本,在这些文本中存在语言多样性、口语化的特点,同时还有反讽、正话反说、反话正说、隐喻等现象,这些都为中文语言处理造成了一定的困难。此外,中文微博还具有自己独特的特点。微博的一个最大特性是微博篇章短小,受到140个字符的限制,导致了微博中的语言相对而言比较精简。在对一个主题进行论述时,用户习惯于对该主题进行集中式的表达。微博用户来自不同的地方,接受的教育程度不同,作为一个网络信息交互平台,微博中的语言还具有网络语言的特点,即,语言来源广、使用随意,甚至具有地方特色。微博语言中的用词、语法结构自由,存在大量的网络新词和谐音词都为微博文本的处理带来了困难,简单地使用传统的意见分析方法显然不能得到很好的效果。下面这条微博反映了微博的语言特点:-5-万方数据 上海交通大学硕士学位论文图表1-1微博实例1Fig.1-1MicroblogExample1上面这条微博文本中使用了“仲系”(真心)、“真系”(真心),“坑爹”等网络用词,可以看出,微博中的语言网络化程度比高,经常会出现谐音词、错别字。本文通过分析微博文本,发现微博文本虽然短小,但是由于中文具有较强的表达能力。同时,微博中陈述的主题往往并不单一,一个微博中可能出现多个主题,即,微博具有主题发散的特点[24]。下面这条微博体现了微博文本主题发散的特点:图表1-2微博实例2Fig.1-2MicroblogExample2上面这条微博针对“思域”这款车发表意见,围绕该车的“外观”、“内饰”、“中控面板”和“发动机”这四个主题展开评论。综上,微博文本具有发布、传播简单方便,进入门槛低的优点,使用微博作的用户越来越多,范围越来越广,同时微博的传播方式是一种病毒式的裂变传播,每天能产生10亿的数据,通过人工方法进行分析显然是不可行的,同时微博作为非规范文本,有效信息的分布零散,造成了数据稀疏,需要一种自动的分析方法处理信息。在处理微博文本时,由于微博自身的特点,简单地套用-6-万方数据 上海交通大学硕士学位论文传统的意见分析方法不能取得很好的效果。另外,虽然目前已经展开了大量的微博意见研究的工作,但是主要集中在英文微博文本中,中文微博的研究还处于起步阶段,相关的理论和资源相关还比较匮乏。1.3.3本文贡献本文立足于实际的项目需求,对汽车领域的中文微博文本进行了深入的分析。针对微博文本的特点,提出一种中文微博文本细颗粒度意见的抽取框架。本文使用Kim等人[25]提出的意见模型,主要涉及两大模块:陈述定界(本文中的陈述定界与一般的陈述定界有所区别,具体在第四章说明)和意见倾向性分析。在对微博进行陈述定界时,本文提出针对微博中主题集中式表达的特点,引入自然标注的思想和小句的概念,使用标点作为陈述定界标志。本文在对微博长句进行小句切割后,使用本体对小句提取主题,得到一个或者多个陈述。在意见倾向性分析模块,本文引入基于主题的特征,提出一种主题相关的微博意见分析方法。本文从实际应用出发,探索领域相关的中文微博文本细颗粒度的意见分析方法,相比已有的文本意见挖掘系统,本文结合微博文本特点,引入新的概念,对一般的分析流程进行了改进。本文主要贡献如下:1.在实验室原有的领域无关的极性词典的基础上,使用汽车微博语料扩展得到了领域相关的极性词典;2.比较和分析汽车领域中的评论文本和微博文本的异同后,本文在进行陈述定界时,引入小句的概念,对微博文本中的长句进行分割,提出了一种基于标点的微博陈述定界方法;3.研究领域相关的微博文本语言特点,提出主题相关的中文微博文本倾向性分析的方法,引入基于主题相关词的特征,提高领域相关微博意见分析的效果;4.针对微博文本的特点,在传统的文本意见挖掘的流程上进行了改进,提出一种新的中文微博文本意见分析框架;5.立足项目背景,在已有的工作积累上,为针对汽车领域的中文微博细颗粒度意见挖掘进行了理论和技术上的探索。-7-万方数据 上海交通大学硕士学位论文1.4论文结构本文的安排如下:第一章是绪论,从总体上分析了本文的研究背景和研究现状。先介绍了与本文工作有关的研究,描述了本文的研究意义和应用的背景。通过分析本文的工作任务,对工作难点进行了陈述,最后简单地介绍了本文的工作方法,以及本文的创新点和贡献。第二章介绍了本文任务相关的基本概念。对意见挖掘中的主要任务进行了概括性的介绍,结合微博的文本特点,对微博意见倾向性研究进行了细致的分析,最后引出本文的意见挖掘方法。第三章是本文中涉及的基础资源和工具的说明。围绕本文中使用的语料、标注工作、本体和极性词典的构建展开讨论,同时对本文中使用的分词、语法分析,以及分类工具进行了说明。第四章详细介绍了本文中使用的陈述定界的方法,首先对陈述定界的基本概念和研究工作进行说明。分析微博的文本特点,引出本文使用的陈述定界方法,通过逗号的二分类对微博中的长句进行小句的切分,在此基础上通过本体进行小句的主题抽取,最后设计了相关实验,并对实验结果进行了讨论。第五章对本文使用的微博意见倾向性分析方法进行了详细的介绍。在一般的微博文本分析方法上引入了基于主题相关词的特征,提高微博文本意见分析的效果,通过实验证明该方法的有效性。第六章是对本文工作的一些总结和对将来工作的展望。-8-万方数据 上海交通大学硕士学位论文第二章意见挖掘研究2.1意见挖掘概念和任务文本意见挖掘(OpinionMining)通常也被称为情感倾向性分析,一般的处理方法是对文本中的信息进行主客观判断,并对主观性文本进行情感分析。根据分析程度的不同可以分为粗颗粒度和细颗粒度的方法。粗颗粒度意见分析的对象是一个句子,甚至是整篇文本,给出整体倾向性结果。细颗粒度意见分析针对文本中的主题进行倾向性分析。本文中研究的是微博文本的细颗粒度的意见分析,针对不同的主题进行分析。本文使用Kim和Hovy[25]定义的意见四元组模型对微博文本意见进行抽象,四元组模型如下:从该模型的定义可以看出文本意见挖掘的四个任务:持有者识别;主题抽取;陈述定界;倾向性分析。下面通过一个实际的例子对意见四元组进行说明。例2.1“福卡斯到手了!5555km,开福克斯总是让人很想开快!2.0动力足,加速猛。”例2.1中共有3个句子。第一个句子是客观句,不是包含用户意见的情感句。第二句和第三句,描述的对象主体是福克斯,主题是“动力”,陈述的意见分别是“让人很想开快”、“动力足”、“加速猛”。通过分析陈述意见的句子,我们可以得到该意见持有者对福克斯的动力的倾向性为正面。文本意见挖掘可以认为是从结构化或者非结构化的文本中抽取出意见四元组,形成结构化信息的过程。下面,我们分别对四元组中的任务进行简单的介绍。2.1.1持有者识别持有者识别(HolderIdentification)就是从文本中识别出意见持有人。用户在发表意见时有时会提到其他人的意见,准确地将不同用户的意见区分出来可以增加对意见文本的理解。本文研究的是微博文本中的意见,这类文本内容精短,意见持有者通常是微博发布者,本文直接将微博用户作为意见持有者,本文没有对该任务进行讨论。-9-万方数据 上海交通大学硕士学位论文2.1.2主题抽取主题抽取(TopicExtraction)指的是从文本中抽取意见描述对象。在汽车领域中的主题有“发动机”、“车身”、“动力”等,此外,一些主题之间还还存在某种关联,形成复杂的结构。主题抽取任务中主要有三个阶段的任务:概念提取,概念中具体词汇识别和词语到主题的指派。在文本,尤其是非规范文本中存在大量的同义词、昵称、俗称、谐音词等现象,主题抽取并不是一个容易的任务。在特定领域的产品意见挖掘研究中,使用本体的概念进行主题抽取是一个常用的技术。本体从抽象层表示领域中的相关主题,使用层次化结构体现不同主题之间的关系,同时本体还具有表示直观,易于实现和理解的优点,使用本体抽取显式主题有比较好的效果,在领域相关的意见挖掘中有较广泛的应用[29],本文使用本体进行主题抽取。2.1.3陈述定界陈述定界(ClaimDelimitation)指的是在意见文本中界定某个主题的陈述范围。在意见挖掘中,陈述是一个可以完整表达一个主题的短语、句子或者几个句子。一个文本中可能出现多个不同的主题,通过一定的手段对篇章进行陈述定界,可以将文本中的相关信息提取出来,有助于对不同的主题进行单独的理解分析,提高意见分析结果。在意见挖掘的相关研究中,主要有以下几种陈述定界的方法:基于模板的方法,粗分法和细分法。基于模板的方式指的是通过定制规则来进行陈述定界,这种方法的关键步骤是指定合适的模板。Yi等人[26]使用核心句[27]作为陈述定界的规则,将只含有一个动词的句子作为一个陈述。Nasukawa[28]等人利用句子结构、极性词、词性等因素定义陈述定界的模板。总体来说,基于模板的方法准确性比较高,召回率相对较低,同时基于模板依赖模板的质量和覆盖面,不易于扩展。基于模板的方式主要用于规范文本的研究。粗分法主要出现在早期的文本意见研究中,它直接将一个句子,甚至整个篇章作为意见分析的对象,没有考虑不同主题的意见,工作[29-32]中使用的都是粗分法,这些研究中分析句子或者篇章的文本倾向性。粗分法由于颗粒度大,只能得到一个整体的倾向性结构,不能得到细化的意见分析结果。-10-万方数据 上海交通大学硕士学位论文细分法针对粗分法颗粒度大的问题,使用更加精细方法,将文本根据主题进行划分,去除了文本中的无关内容。细分法中使用短语或者句子作为一个陈述,[33-37]等研究中使用短语作为一个陈述。细分法的陈述定界可以准确定位出文本中的有用信息,去除噪音,使用陈述定界结果进行倾向性分析。同时,细分法的陈述定界可以针对文本中的不同主题进行分析,给出细颗粒度的意见分析结果。本文的任务是实现中文微博中的细颗粒度意见分析,本文使用了细分法,对不同的主题进行文本划分,提出使用小句的概念来定位陈述的边界,详细内容在第四章进行介绍。2.1.4倾向性分析意见倾向性分析(SentimentAnalysis)分析中不同陈述的情感倾向,研究目的在于理解和挖掘出文本中的意见[38-40],结果一般分为正面和负面两大类。目前使用的主要方法有基于规则和基于统计。基于规则的方法使用情感词典,结合一定的规则来判定文本的情感倾向[33],基于统计的方法将倾向性分析问题作为文本分类问题来处理[5]。这两种方法中,基于统计的方法表现更好,相关的研究更多。本文研究微博文本中的倾向性,微博文本和一般文本相比,具有不同的特点,本文提出使用基于主题的特征,使用基于统计的方法研究微博文本的倾向性,具体内容在第五章展开。2.2本文微博意见研究方法微博意见倾向性研究是最近几年兴起的一个研究方向,相比传统的意见文本,微博文本在形式和内容上都发生了改变,简单使用传统的文本分析技术不能很好地解决微博的意见分析问题。国内外相关研究者开展了不同方面的工作,文献[11]研究了微博在文本倾向性分析上的优势和潜在的价值,文献[21]比较了中文和英文微博形式和内容上的差别,文献[12-16,18,22-24]针对微博文本中的意见挖掘展开了研究。本章从微博的特点分析入手,引出本文中使用的微博意见挖掘流程。2.2.1微博文本特点分析和传统的文本相比,微博文本由于受到字数的限制,呈现出内容精简,用-11-万方数据 上海交通大学硕士学位论文词随意等特点。同时,作为一个网络社交化的平台,微博中使用的语言也呈现出网络语言的特点。归结起来,微博文本主要有以下特点:1.文本篇幅较短,存在大量主语,宾语等成分省略的现象;2.使用的语言语法结构自由,谐音词、错别字的现象比较普遍;3.含有很多不规范用语和网络用词,口语化、地方化语言的使用比较频繁,用户常常使用网络新词表达情感;4.主题发散,一个微博文本中常常含有对多个不同主题的意见,用户习惯使用精简的语言对不同主题进行集中式表达;5.具有一般中文语言多样性的特点,如“反讽”,“褒义贬用”,“贬义褒用”现象,很难使用统一的模式进行定义。2.2.2本文意见挖掘方法针对微博的文本特点,本文提出一个适用于微博的意见挖掘框架,相对与传统的文本意见挖掘系统,本文对意见挖掘的流程进行了适当的改进。一般的文本抽取系统的主要流程为:1)获得评价信息;2)抽取主题和特征;3)针对主题和特征进行陈述定界(当然有一些系统使用文本或者句子作为一个陈述);4)使用基于规则或者统计学习的方法进行意见倾向性分析;5)使用一定的手段呈现结构化结果。图2-1是一个比较典型的意见挖掘系统的流程图[43],文献[37,41-44]也使用上述处理流程构建了经典的文本意见挖掘系统。-12-万方数据 上海交通大学硕士学位论文图表2-1意见挖掘系统流程图[43]Fig.2-1OverviewoftheOpinionExtractionSystem[43]本文针对微博文本使用较多的长句,主题发散且集中式表达的特点,在传统的意见挖掘流程的基础上进行了改进。引入了小句的概念,使用自然标记的思想,利用用户提供的“弱标注”对微博先进行小句拆分,将一个小句作为一个陈述,进行主题抽取和分析文本倾向性。图2-2显示了本文的主要抽取步骤。图表2-2系统流程图Fig.2-2AlgorithmFlowChart-13-万方数据 上海交通大学硕士学位论文本文中使用Kim等人[25]提出的意见四元组模型,同时根据实际需要,本文中对Topic的定义给出了更加细化的表示:,Claim,Sentiment>图2-3是本文提出的基于汽车领域的意见挖掘的整体流程图:图表2-3汽车中文微博意见挖掘流程图Fig.2-3FlowchartofChineseMicroblogOpinionSystembasedonCarArea微博文本篇章短小,主题具有一定的发散性,但是在对同一个主题的描述语句又相对集中,不像论坛中的评论文本对同一个主题的评论可能会出现在不同的篇幅中,这一特点为本文中提出的陈述定界的方法提供了可能性。图2-3中显示的流程中主要的模块是陈述定界和文本倾向性分析,这两部分内容将在第四章和第五章展开具体的论述。2.3本章小结本章首先介绍了文本意见挖掘的基本概念,对本文中使用的意见四元组模-14-万方数据 上海交通大学硕士学位论文型进行了介绍,通过对四元组中各元素的分析,简单介绍了意见挖掘中的四个子任务和相关的技术。针对微博文本的特点,本文在研究传统的意见挖掘流程的基础上提出了本文设计的微博意见挖掘框架。-15-万方数据 万方数据 上海交通大学硕士学位论文第三章基础资源和工具说明3.1语料3.1.1语料说明本文中所使用的语料来自新浪微博5,使用一个微博信息采集软件进行微博数据的抓取。该软件使用关键词从网页上抓取匹配到的微博文本,并保存成XML格式。采集到的微博帖子中包含了ID,类型,发布时间,抓取时间,发帖人昵称,帖子正文,转发数,回复数等信息。3.1.2语料预处理直接从网站上抓取下来的微博信息存在很多格式不一致的情况,需要进行预处理。主要的预处理工作如下:1.处理微博文本中不规范的标点,如“。。。”、“。。”等,统一使用ETC进行替换;2.文本中出现的英文字符统一成小写,所以文字使用半角表示;3.去除多余的空格;4.将微博中的特定信息,如网页链接、图片、表情符号、用户昵称等,提取出来,存放在特定节点中。3.2标注本文中的陈述定界和倾向性模块都涉及机器学习的方法,需要对数据进行一定的人工标注。通过标注工作,一方面可以为上述两个模块提供有用的数据,另一方面也可以通过标注工作发现和总结一些特征,用于本文的研究工作。本文中的标注工作由两个人分别独立完成,并通过交叉验证的方法,保证标注数据的可靠性。本文中的标注工作由一个标注软件辅助完成,该软件是在实验室的一个标注软件上进行二次开发得到的,图3-1显示了该软件的界面:5http://weibo.com/-17-万方数据 上海交通大学硕士学位论文图表3-1逗号分类标注界面Fig.3-1LabelInterfaceofCommaClassification3.2.1陈述定界标注有关本文陈述定界概念和方法在第四章进行详细介绍,本节主要介绍该模块相关的标注工作。下面是一个标注后的实例:图表3-2小句标注实例Fig.3-2ExamplesofClausesMarking-18-万方数据 上海交通大学硕士学位论文标注工作处理的对象是微博正文,使用逗号对长句进行划分,可以得到五个子句。标注工作主要为判断该子句结尾处的逗号的类型(相关介绍在章节4.3中),将逗号划分成为停顿型逗号和分隔型逗号,seg="Y"表示分隔型逗号,seg="N"表示停顿型逗号。本文中的陈述定界研究微博长句中逗号的二分类问题,对长句中出现的逗号的作用进行人工区分,首先对文本进行预处理,主要有以下工作:1.对句子根据分隔符进行句子划分,使用的分隔符有:“。”、“;”、“!”、“?”、“~”、“。。。。。。”、“…”等;2.处理微博文本内容,将微博文本中的话题(Topic)单独提取出来,微博文本中使用符号#Topic#以及【Topic】表示话题,话题单独存放在一个标记中。3.使用标注软件对逗号的作用进行人工标注。3.2.2倾向性分析标注本文中的倾向性标注工作是在小句划分的基础上进行的,使用本体提取小句中的主题,并针对该主题标注小句的倾向性,主要分为正面、中性和负面这三种结果。图3-3显示了倾向性标注的一个实例:图表3-3倾向性标注实例Fig.3-3ExamplesofSentimentMarking3.3本体构建本文使用汽车本体对小句进行主题抽取。本体(Ontology)描述的是领域-19-万方数据 上海交通大学硕士学位论文中相关概念以及概念之间的关系,可以简单地将本体认作是相关领域知识的具象化表示。本体体现了主题之间语义层上的关系,使用抽象形式对主题进行表示。根据具体内容的不同,可以分为领域相关本体和跨领域本体。在特定领域的研究中,本体可以为文本的理解提供很好的支持,是一种常用的技术。领域本体(DomainOntology)表示的是特定领域中的相关知识,并使用抽象化层次结构定义概念之间的关系、原理和活动等,有着比较广泛的应用,在自然语言的其他研究领域,如机器翻译、信息抽取等研究都有相关的使用。在文本意见研究领域,姚天昉等人[42]通过分析汽车领域中的相关专业术语,建立了一个基于汽车领域的本体。在该本体中主要涉及两个方面的知识:车型(Car)和特征(Feature)。使用XML和JDOM技术,通过树状结构进行表示,本体结构如图3-4所示:图表3-4汽车本体结构示意图[37]Fig.3-4OntologyStructureofCarArea[37]本文也是基于汽车领域的研究,在文献[42]提出的本体的概念上,对本体的结构进行了一定的改进。本文将汽车领域中的相关概念分为两大类:车型(Car)和特征(Feature)。在构建本体的过程中,本文根据实际使用需求,将车型本体定义为三层树形结构:品牌—厂家—车型,同时由于文本中存在大量汽车昵称,本文在本体对这些昵称定义了对应的转化关系。特征本体的结构为:维度—信息点—关键词。图3-5和图3-6分别显示了本文中使用的车型和特征本体的表示形式:-20-万方数据 上海交通大学硕士学位论文图表3-5本体中车型的XML表示Fig.3-5XMLrepresentationofthemodelsinOntology图表3-6本体中特征的XML表示Fig.3-6XMLrepresentationofthefeatureinOntology3.4极性词典构建在意见分析研究中,无论是使用基于规则还是基于统计的方法,情感词典都能提供很好的帮助。日常生活中,用户在表达自己喜好时常常会使用极性词直接表达自己的情感。在微博文本中,由于微博内容短小,用户更加倾向于使用直接明确的方式表达对产品的意见。本文中的陈述定界和倾向性分析模块都使用到了极性词的特征,本章就极性词典进行一定的讨论。极性词典由极性词构成,极性词指的是带有主观情感色彩的词,可以是名词、动词、形容词、副词和短语等。一个极性词一般具有两个特性:极性和极性强度。极性指的是词语的情感色彩,可以分为两种不同的极性:褒义(Positive)极性词和贬义(Negative)极性词。褒义极性词:带有赞许、肯定情感的词,比如说“好看”、“实惠”、“漂亮”等,都是含有褒义情感色彩的极性词。-21-万方数据 上海交通大学硕士学位论文贬义极性词:带有贬斥、憎恨、否定、轻蔑等感情色彩的词,比如说“难看”、“差”、“难以忍受”等,都是含有贬义情感色彩的极性词。极性强度指的是极性词表达的情感强度,如“喜欢”和“钟爱”这两个词表达的都是喜爱的感情,但是后者的程度更深。一般使用权值描述极性强度,对应的情感色彩强的词具有较大的绝对值[1]极性词的极性和强度随着使用领域的不同可能会出现一定的变化,分为领域无关极性词和领域相关极性词。领域无关极性词即通用领域极性词,这类词在不同的使用场景下呈现出来的极性和极性强度不会发生明显的变化,如“喜欢”“讨厌”这类词。领域相关极性词不同的场景中使用时,极性或者极性强度会发生一定的变化。如“费机油”这个词,在一般的文本中使用没有情感倾向,但是在描述价格的时候,这个词可以表达用户对“油耗”的不满。本文中使用的极性词典由两部分组成:通用领域极性词典和领域相关极性词典。3.4.1通用领域极性词典文献[42]通过知网(HowNet)构造出了一个通用领域的词典。知网是由董振东等人[45]创建的表示概念与属性之间以及概念之间关系的一个知识库。由于知网提供了非常详细的语义知识,知网常作为一个知识体系,为自然语言理解提供语义知识。在知网中,有两个主要概念:“义原”和“概念”。义原:知网中描述一个概念的最小意义单位。概念:是对词汇语义的一种描述,由于知网中的词语使用的一种多维知识表示形式[45],知网中使用“知识表示语言”来描述词语。知网中的词语由概念表示,概念由义原表示,与一般的语义词典不同,知网并不是简单地将概念归结到树状层次结构中。图3-7显示了知网中词语的表示结构:-22-万方数据 上海交通大学硕士学位论文图表3-7知网中词汇的表示形式Fig.3-7TermsRepresentedinHowNet图3-7显示了知网中同一个词在不同的语境下具有的不同解释,知网中还使用了中英文对照的表示方式。知网中含有的大量的词汇可以为通用领域极性词典的构造提供丰富的资源。文献[42]中的极性词典使用XML结构来表示极性词,结构形式如图3-8所示。图表3-8极性词典XML表示[42]Fig.3-8XMLStructurePolarityDictionary[42]本文使用的通用领域的词典部分来自于文献[42]中使用的极性词典,该词典-23-万方数据 上海交通大学硕士学位论文的构造方法如下:使用基本义原“良|desired”和“莠|undesired”分别作为褒义极性词和贬义极性词的基准词,对知网中的词进行判定,将含有上述义原的词判定为正面或者负面词,划分到对应的极性词典中,由于知网中一个词往往含有多种解释,一个概念可能含有多种义原,在进行判断的时候,使用该词的常用概念的常用义原。文献[42]中构造出的极性词典含有6394个极性词,其中3057个褒义极性词和3337个贬义极性词。为了充分利用知网中丰富的语义资源,对文献[42]中的极性词进行补充,本文利用词语之间的语义关系,对上面的词典进行了补充,添加了一些常用的极性词,如“赞美”、“看轻”等。使用的基本思想如下:使用常用的情感词“喜欢”和“讨厌”作为褒贬词的基准词,利用知网中上下位的语义关系计算其他词汇到这两个基准词的距离,得到它们的相似度,将与基准词相似的词补充到极性词典中。本文中使用刘群和李素建[46]提出基于知网的相似度计算方法,他们定义两个词汇之间的相似度如公式3-1所示:Sim(W,W)maxSim(S,S)(3-1)121i2ji1..n,j1...m其中,W1和W2表示两个词,W1中含有概念(或者义原):S11,S12,……,S1n,W2中含有概念(或者义原):S21,S22,……,S2m,W1和W2的词语相似度为他们概念(或者义原)间的最大相似值。为了得到概念(或者义原)间的相似度,需要定义它们的距离。在知网中,义原可以构成一个树状层次结构,利用义原的上下位关系能得到义原的距离。假设有两个义原:p1和p2,它们在层次结构中路径距离为d,可以定义距离如下:Sim(p,p)(3-2)12d其中,α是一个可调节的参数。使用[0,1]表示两个词之间的相似度,值越大表示两个词之间的相似度越高,一个词和它自身的相似度值为1。计算知网中其他词和基准词的相似性时,使用以下公式Sim(BaseWord,w)(3-3)其中,BaseWord表示我们使用的基准词,W表示知网中的词,表示相似-24-万方数据 上海交通大学硕士学位论文度的阈值,这里设定=0.5。通过上述两种方法本文对获取到的极性词进行人工过滤,最后一共得到了3166个极性词,其中正面极性词838个,负面极性词2328个。3.4.2领域相关极性词典本文是基于汽车领域微博文本的研究,汽车领域中存在大量的领域相关极性词,为了达到更好的效果,适应领域相关的意见文本分析任务,需要建立一个领域相关词典。本文使用了文献[39]中提出的使用主题词和极性词语法关系进行领域相关的极性词的抽取方法。由于在意见文本中,极性词和主题词经常会伴随出现,利用这一特点,文献[39]使用句子中的语法依存关系扩充领域中的极性词。该方法使用双向传播的思想进行扩展,基本的思路是利用现有的极性词和主题词,根据语法关系发现新的极性词和主题词,加入到对应的词库中,再利用扩展的词进行新词的挖掘,直到没有新的词出现为止。根据句法结构中的位置关系,可以将句法结构关系分为两大类:直接关系和间接关系。假设在一个句法结构中存在词语A和B,直接关系指的是A和B之间存在一个之间的语法结构,或者有一个词H,A和B都和该词存在直接的语法关系,相对地,间接语法关系指的是A和B之间不能满足上述的两种情况。图表3-9词之间的语法关系[39]Fig.3-9GrammaticalRelationsbetweenwords[39]图3-9对两种语法关系进行了一个形象的说明,可以看出,图(a)(b)显示了直接关系,图(c)(d)显示了间接关系。当A和B是一个极性词或者主题词的时候,可以利用它们直接语法关系进-25-万方数据 上海交通大学硕士学位论文行抽取,使用直接语法关系的原因是句法分析器对句子,尤其是复杂的长句进行句法分析是存在一定的错误的,尤其是对网络中的非规范文本,错误率更高,会直接影响后续的处理。使用的规则如图3-9所示:图表3-10抽取规则[39]Fig.3-10ExtractionRules[39]其中,S表示极性词,F表示主题词,H表示一个任意的词。SS-DepF表示S和F之间存在一个直接的依存关系S-Dep。{JJ}和{NN}分别表示极性词和主题词的词性集合,{JJ}包含JJ,JJR和JJS,{NN}包含NN(单数名词)和NNS(复数名词),{MR}表示极性词和主题词之间的语法依存关系,包括subj、obj、amod和pnmod(名词性后置修饰语)等关系,{CONJ}表示conj(连词)。对新添加的极性词需要判定它的极性。文献[39]利用文本语言的两个特点进行极性判定,一个特点是在一个意见文本中描述同一个主题的极性词的极性是相同的,另外一个特点是在同一个领域中,领域相关极性词呈现出的极性是一致的。利用这两个特点,判定新添加的极性词的极性,使用1表示词的极性。本文中使用的极性词典由上文介绍的两大类极性词组成,极性词典能给文本意见分析提供极其有用的帮助,但也存在着一些缺陷:1.词典覆盖面有限:极性词典在为文本意见分析提供帮助的同时,也限制了极性词的范围,对文本的极性词的识别局限在词典中出现的词汇内。-26-万方数据 上海交通大学硕士学位论文但是想要构建出覆盖所有极性词的词典显然是不现实的,所以,极性词典的覆盖面是有有限的;2.一词多义:在中文中,词语含有丰富的语义,在不同的语境中,词语呈现出来的情感极性和强度有时会出现不同,本文的通用领域极性词典的构造中使用最常用概念的常用义原,这样做的后果是会对情感造成误判;3.动态极性:在对不同的主题进行描述时,有些极性词会表现出不同的极性,如“价格高”和“配置高”这两个短语中,同一个词“高”体现出来的情感色彩是不同的;4.网络用词:网络文本中经常会出现新的流行词汇,这些词可能是不规范的用词,或者是旧词新用。新词在分词或者极性判断的过程中常常会发生错误,同时网络文本中也常常会出现谐音词或者错别字,使用极性词典很难对这些词做出正确的判断;5.反讽现象:讽刺,使用反语来表达情感也是常见手段。如微博文本“我喜欢的车,商务肯定是GL8了不可以说其他,轿车/越野:科鲁兹、卡罗拉、甲壳虫、缆胜、极光、酷熊、君威、思域、没了.....(Ps:研究船的可以一起商讨的)”中发帖人论述了GL8、科鲁兹、卡罗拉、甲壳虫、缆胜、极光、酷熊、君威、思域等车,表达了对GL8的正面倾向,以及对其他车的负面倾向,文本中使用“Ps:研究船的可以一起商讨的”这样的句子表达了对这些车的否定。这类表达使用极性词典进行判断并不合适。3.5分类算法简介本文在陈述定界和倾向性分析分析模块中都使用到了分类器,主要涉及了决策树、支持向量机和朴素贝叶斯三个分类算法,下面分别对它们进行简单的介绍。本文中使用的工具为新西兰怀卡托大学开发的开源工具:Weka6,它实现了很多常用的机器学习的算法,是一个很好的数据挖掘平台。另外,本文还使用6http://www.cs.waikato.ac.nz/ml/weka/-27-万方数据 上海交通大学硕士学位论文了台湾大学林志仁教授开发的LibSVM7开展实验。3.5.1决策树决策树(DecisionTree)是一种常用的决策方法,它基于归纳推理的学习方法,有比较广泛的应用。决策树的基本思想是根据实例和属性构建出一个能进行决断的树,树上的分支代表了不同的分类规则。在决策树中,树上的非叶子结点代表了参与当前分类的属性,从该结点向下生长出来的分支则代表了在该结点代表的属性的不同取值(范围)下不同的判定规则。在对测试实例进行分类时,从决策树的根节点出发,沿着不同路径向下遍历,直到到达叶子结点,该叶子结点对应的属性也就是该实例的分类结果。在决策树算法中主要涉及生长和剪枝这两部分内容。生长指的是使用训练样本完成决策树建立的过程。决策树的生长使用的是自动向下的方法,使用信息增益来进行度量,选择信息增益最大的属性。图3-11显示了决策树算法中常用的一个算法ID3的树生长的算法流程。图表3-11ID3算法概要[47]Fig.3-11ID3AlgorithmSummary[47]7http://www.csie.ntu.edu.tw/~cjlin/-28-万方数据 上海交通大学硕士学位论文由于用于树建立的训练数据含有不同程度的干扰,在生长过程中可能会发生过度拟合,需要对树进行适当的剪枝。主要有两种剪枝的策略:事前剪枝和事后剪枝。总体上说,决策树的优点是算法简单,易于实现,同时准确率高,有较好的学习能力,具备一定的抗噪音能力,在规模较小的数据集上的表现比较好,缺点是在处理大规模数据时效率不高。3.5.2支持向量机支持向量机(SupportVectorMachines,SVM)在传统的文本分类中具有比较好的效果,通常比朴素贝叶斯的分类效果更好[48]。与朴素贝叶斯不同的是,SVM不是基于概率模型,而是基于统计学理论的学习方法。SVM的基本思想是找到一个超平面将空间中的数据分开。在SVM模型中,实例用向量进行表示,一个实例可以看成是空间中的一个点,多个训练数据中的实例就构成了空间中的很多点,SVM通过计算出一个超平面使得不同类型中之间的距离最大。(i)假设存在N个数据,对其中一个实例xi,使用向量的实现表示成x,该实例的类型使用yi表示(yi=1),现在我们有训练集{(x1,y1),(x2,y2),...,(xn,yn)},有以下决策函数:f(x)Sim(wxb)(3-4)为了确定w和b,将上述问题变成最优化问题,使用公式3-5进行计算mmin1TTWWCi,yi(W(Xi)b)1-i,i0(3-5)w,b,2i1通过拉格朗日优化方法将这个最优分类面问题转化为一个对偶最优化问题:m(i)(i)Wiyx(3-6)i1其中,表示拉格朗日算子,将>0的数据称为支持向量,这些点位于ii边界上,其他的点=0。i对SVM超平面的计算起作用的是支持向量机,所以SVM具有较强的适应能力。在实际的使用中,采用计算核函数而非高维空间中的非线性函数的方法,可以提供效率,避免维度灾难。-29-万方数据 上海交通大学硕士学位论文SVM的优点是准确率高,在样本比较小的时候,表现较好。同时它的缺点是针对具体的问题不容易选择合适的函数,同时,计算的开销相对比较大。目前,在SVM的基础上进行改进的算法有多类支持向量机,模糊支持向量机(FSVM)和序列最小优化(SMO)等。3.5.3朴素贝叶斯朴素贝叶斯(NaïveBayes)分类器是一个基于贝叶斯定理的简单概率分类器。贝叶斯分类是一种概率推理的方法,推理的基础是一个独立假设,即,样本中的每一个属性都是独立不相关的,它们对分类结果的影响是独立的。假设有一个需要分类的文本d,使用特征向量进行表示,文本一共有n种类:c1,c2,c3,…,cn,为了确定d的分类,使用以下公式进行计算:mP(d)P(cj)P(d|cj)(3-7)j1P(c)P(d|c)jjP(c|d),j1,2,...,n(3-8)jP(d)其中,P(c)指的是类别c在样本集中所占的比例,通过概率密度函数可以得jj到P(d|c),使用公式3-8计算得到所有P(c|d)的值,取值最大的类别作为分jj类结果。朴素贝叶斯分类器的优点是简单,方便实现,使用较少的数据就能计算出必要的参数,它的缺点是该方法的独立假设理论在实际情况下是不完全成立的。3.6文本分析工具本文中使用StanfordWordSegmenter8进行分词,使用StanfordPOSTagger9进行词性标注,使用StanfordParser10进行语法分析,获得依存树等关系。3.7本章小结本章介绍了本文中使用到的基础资源的相关概念和构建过程。本文首先介绍了本文中语料的来源和标注有关的工作,之后对本文中使用到的两个重要的8http://nlp.stanford.edu/software/segmenter.shtml9http://nlp.stanford.edu/software/tagger.shtml10http://nlp.stanford.edu/software/lex-parser.shtml-30-万方数据 上海交通大学硕士学位论文资源:汽车本体和极性词典展开了说明,详细介绍了相关的概念的定义、构建方法,以及局限性。最后,对文本中涉及的分类器和文本分析工具进行了说明。-31-万方数据 万方数据 上海交通大学硕士学位论文第四章陈述定界4.1基本概念陈述定界是意见倾向性分析的基础,一个陈述指的是可以表达一个完整意见的短语、句子或者几个句子。在意见文本中,常出现不止一个主题的情况,每一个主题文本中表述的倾向性可能是完全不同的。对意见文本根据主题划分陈述,再对陈述进行倾向性分析有助于提高分类的正确性,同时也能满足细颗粒度的文本意见挖掘的需求。4.2相关研究许多文本意见分析工作[26,33-36]中将陈述定界作为倾向性分析工作的基础。从这些研究中可以看出对意见文本进行陈述定界可以将文本内容按照主题进行划分,有助于文本语义层面上的理解,提高分析的准确度。陈述定界主要有以下三种方式:基于模板的方法,粗分法和细分法。基于模板的方法使用规则抽取文本中的陈述。Yi等人[26]使用核心句[27]的概念,抽取句子中只含有一个动词的句子,使用句子中的语法关系来制定陈述抽取的规则。Nasukawa等人[28]等人利用句子结构、极性词、词性等特征定义陈述定界的标准。整体上看,基于模板的方法具有较高的准确率,该方法使用的范围为较为规范的文本,如新闻文本,评论网站评论等,这类文本的特点是语法、用词比较规范。其次,这种方法受到模板质量和覆盖率的影响,扩展性也不强。粗分法直接将整个句子或者整个文本作为一个陈述,在早期的文本意见研究工作[29-32]中普遍使用的是粗分法。这种做法一个明显的缺陷就是分析的结果不够细致,从应用层面上讲,实用价值并不是很高。由于评论文本中经常会涉及多个主题,甚至在一个句子中都有可能出现多个不同意见倾向的主题,比如在一个汽车评论文本中虽然该文本对某一款汽车的整体评价是正面的,但是可能对于该车的价格,用户并不是很满意,所以,使用粗分法最多只能得到句子级或者篇章级的意见分析结果,难以达到精细化的分析目标。细分法针对粗分法中存在的颗粒度过大的现象,使用更加精细的陈述定界方法,根据主题来定位陈述范围。一般的做法是根据句子结构关系进行“主题”和“陈述”的界定,文献[33]中使用NP短语作为陈述,[34-36]等研究中对篇章-33-万方数据 上海交通大学硕士学位论文进行分析,使用短语级的倾向性分析方法。文献[37]将陈述分为单一陈述和混合陈述,分析了这两种陈述的特征,使用基于统计学习的方法进行区分,并针对混合陈述句,使用一种“投影映射”的规则生成模式,最后通过实验验证了该方向的有效性。细分法可以更加精确地为各个主题定位意见文本,适合于文本的细颗粒度意见挖掘。本文的目标是获得细颗粒度意见,基于模板的方法和粗分法都不能很好地满足本文的需求,因此本文使用细分法对微博中的不同主题进行陈述定界。本文考虑到微博文本短小,字数不多的特点,为了确保之后进行倾向性分析时保留尽量多的特征,本文中的陈述定界对微博中长句进行分隔,为每一个主题界定陈述范围,同时,考虑到文本内部具有一定的连贯性,描述同一主题的句子之间在位置上相近的特点,最后,采用了一种基于标点的陈述定界划分的方法。4.3本文陈述定界方法本章具体介绍本文使用的陈述定界的方法,首先从微博文本研究出发,引出本文陈述定界的方法。4.3.1微博文本分析总所周知,微博文本中对字数做了一定的限制,用户发布的微博在语法、词汇的使用上都相对比较随意,微博语言更具个性化。另外,由于用户使用的习惯,微博文本中存在较多的长句,这里长句指的是在含有多个主题的句子,同时不同的主题之间发布者没有使用常用的分隔标点(如句号、感叹号等)进行划分,如下面这条微博:图表4-1微博实例3Fig.4-1MicroblogExample3-34-万方数据 上海交通大学硕士学位论文这条微博的正文为一条长句:“预计搭载1.6L涡轮增压柴油发动机,最大功率122马力,最大扭矩306N·m,外观方面车身线条动感,你不得不说它真的极具未来感,投产后将成为思域四十年历史中最宽敞的车型。”文中讨论的对象是“思域”这款车,围绕这款车,该微博对“发动机”、“最大扭矩”、“外观”这几个主题进行了评论。可以看到在这条微博中,正文中只有一个长句,文本中使用了四个逗号,对微博中的长句进行切割可以得到“预计搭载1.6L涡轮增压柴油发动机”,“最大功率122马力”,“最大扭矩306N·m”,“外观方面车身线条动感”,“你不得不说它真的极具未来感,投产后将成为思域四十年历史中最宽敞的车型。”这几个子句。针对这个现象,本文引入小句的概念,对长句根据主题的不同进行切分,并对切分后的小句进行研究。在针对汽车评论文本进行意见挖掘工作中,我们也曾遇到过上文提出的现象。下面,本文针对汽车论坛文本和微博文本中的标点的使用情况进行了一些基于经验的调查。在非规范文中,如论坛,微博中,在进行主题切换时,用户经常不使用规范的分隔符号,最常用的标点是逗号。根据逗号的作用可以将逗号分为两种类型:停顿型逗号(SeparatorComma)和分隔型逗号(DelimiterComma)。停顿型逗号(SeparatorComma):指的是一个子句内部用于停顿的逗号,逗号两边的子句陈述的是同一个主题,同时该逗号两边的子句具有一定的关联,如上面提出的微博例子中的“你不得不说它真的极具未来感,投产后将成为思域四十年历史中最宽敞的车型”中的逗号就是一个停顿型逗号;分隔型逗号(DelimiterComma):处于小句边界的逗号,即逗号两边的子句陈述了不同的主题,逗号两边的句子从内容和语法上来说都是相对独立的,上文提出的微博例子中“最大扭矩306N·m,外观方面车身线条动感”中的逗号就是一个分隔型逗号,因为该逗号的左边陈述的主题为“最大扭矩”,右边陈述的主题为“外观”,两边的子句不构成关系。本文对论坛文本和微博文本中这两种不同类型的逗号的使用情况进行分析。表4-1显示了从汽车论坛(汽车之家)中随机抽取的100篇文本中,各类常见的标点符号的使用情况:-35-万方数据 上海交通大学硕士学位论文表格4-1论坛文本中标点使用情况分析表Table4-1TableofthepunctuationusageonForumTexts标点出现次数使用频率%句号44123.32问号19410.23感叹号20210.65逗号97451.34分号80.42冒号784.11在微博文本中的逗号使用情况更加频繁,表4-2显示了在752条中文汽车微博文本中各类常见标点符号使用情况:表格4-2微博文本中标点使用情况分析表Table4-2TableofthepunctuationusageonMicroblogTexts标点出现次数使用频率%句号91823.46问号812.07感叹号1724.40逗号260266.52分号200.511冒号1223.12从表4-1和表4-2中,可以看出在论坛文本和微博文本中逗号使用率都比较高,尤其是在中文微博文本中,逗号出现的频率更高。这是由于非结构化文本中的用词,语法结构比较随意,用户的使用习惯导致的。本文继续使用上文中提到的逗号类型的定义,对表4-2中的逗号类型进行研究,得到了停顿型逗号和分隔型逗号的具体分布,如表4-3所示:表格4-3微博文本中两种逗号分布表Table4-3TableofthedifferentcommasdistributedonMicroblogTexts逗号类型使用情况停顿型逗号56.47%分隔型逗号43.53%表4-2和4-3中的数据也表明了在微博文本中,分隔型逗号可以说是除了句号以外,另一常用于主题切换的标示符。相关数据显示也表明大约有30%的逗号在句子中是被当成句子之间的分隔符来使用的。在微博文中,这种情况更加多,逗号经常出现在长句中,在本小节开始中提到的实际微博例子中可以看到,中文微博长句中主题发散,同时常常使用逗号进行主题的分隔。基于以上分析,本文认为在微博中,用户使用逗号的频率很高,研究微博中的逗号,有效区别出逗号的类型可以帮助解决微博中的陈述定界问题,为之-36-万方数据 上海交通大学硕士学位论文后的工作打下基础。4.3.2小句研究基于上一小节的研究,本文提出使用微博文本中的标点进行陈述定界。在一些研究工作中,由于长句结构复杂,为工作带来了一定的困难,在文本挖掘、机器翻译等工作中,都对长句进行了研究。将长句进行适当的切分,针对小句进行研究可以提高效果。黄河燕和陈肇雄[49]针对文本中包含从句、插入语和非谓语动词短语的复杂长句进行分析,利用句子中的句法特征、长度、标点、功能词等特征对长句进行小句拆分,提高了机器翻译的性能。本文也使用小句的概念,将微博中出现的长句切分成小句。目前,研究人员对小句的定义还没有达成共识。邢福义[40]指出中文中的语法由各级语法的内外规则组成,提出小句中枢地位理论。他认为小句指的是单句,以及结构上相当于单句的分句,小句与小句之间不存在包含和被包含的关系,在具有表述性的语法单位中,它是构成复句和句群的基本单位。储泽祥[50]在邢福义[40]的工作基础上,进一步对小句的性质、范围等进行了阐释,他指出小句是小于句子但大于短语、词或语素的基本动态语法单位,强调小句应该具有语调或者语气(陈述、祈使、疑问、感叹等),认为小句即“短语或词+语调+语用效应”。从上述研究中可以看到小句具有以下特点:1)独立表述单位;2)篇章中最小、最基本的单位;3)语法独立,与其他句子不构成关系。本文中使用文献[51]中对小句的定义:小句是篇章分析的基本单位,含传统单句和复句中的分句。结构上,小句中至少包含一个谓语部分,表达一个命题;功能上,小句不作为其他子句的语法成分,小句和小句间不发生命题关系;形式上,小句间一定有标点分割,通常是逗号、分号和句号等。在实际语料中,一些结构和功能上与传统短语相似的子句也可以作为小句进行处理。本文中使用的是小句广义定义,小句中的一个或者几个子句描述了一个独立的主题,小句在结构上至少有一个谓语成分,形式上具有标点符号(通常为逗号、句号和问号)进行标识。一个小句表达了一个完整的主题,一个篇章中存在一个或多个小句。根据语法结构和文本内容等特征,可以将长句切分成一个或者多个小句。下面用本文处理的一个实际例子出发,对小句的概念做一个直观的认识。-37-万方数据 上海交通大学硕士学位论文图表4-2微博实例4Fig.4-2MicroblogExample4该微博正文中有两个句子,下面对第二个句子展开分析。根据本文中的小句的定义,该长句可以分成三个小句“以ConceptS为雏形打造的新一代Stream思韵更加突出家用特性”、“上市后将与丰田逸致和大众途安展开厮杀”和“看外观的话,两个字,前卫”。这三个小句论述的是不同的主题,在形式和结构上都相互独立。由于逗号在中文文本中被广泛使用,在非正式文本,如短信、微博、评论中,由于用户的使用习惯,逗号经常会成为句子的分隔符。对长句中进行划分,将小句作为研究对象可以提高整体性能,目前已经有研究者针对小句展开工作。Xue等人[52]使用小句概念对结构松散的文章进行分隔,他们提出一种启发式的算法,利用句子的语法、结构等特征进行句子边界检测。Jin等人[53]研究长句中的逗号的句子定界问题,利用句子之间的语法依存关系、连词、动词、形容词、副词等特征,将逗号的区分问题视为二分类问题,使用SVM分类器进行分类。黄河燕等人[49]提出一种多语种通用的基于多策略分析的复杂长旬翻译处理算法,采用基于实例模式匹配和规则的方法,综合考虑句子中多种相关的语言特征,对复杂长句进行切分简化处理和译文复合生成,在实用机器翻译系统的研究中取得了比较好的效果。李艳翠等人[51]研究逗号在子句识别上的作用,抽取词、句法和位置等信息进行识别,使用信息增益选出贡献最大的八个特征,验证了基于逗号的子句识别在理论和实验上的可行性。本文在汽车领域中文微博文本研究的基础上,提出使用小句进行微博文本-38-万方数据 上海交通大学硕士学位论文的陈述定界,这样做主要基于以下几个原因:1.微博文本中主题发散,从上文中提到的微博的实例我们可以看到微博中虽然有140字符的限制,但是由于中文的表达能力较强,中文微博的主题具有发散的特性,这也与谢丽星等人[24]提出的中文微博主题具有发散性的观点相一致;2.中文汽车微博评论文本中,用户喜欢针对某一款车的多个方面进行评论,在不同的主题切换时,使用了大量的逗号;3.在中文微博文本中,经常使用长句,长句中主题发散,同时长句中存在大量的逗号,可以说,通过对长句中的逗号的分类可以为主题的陈述定界提供有用的帮助;4.由于微博文本本身比较短,在后续处理文本倾向性时,希望能保留尽量多的信息;5.在微博文本中,用户在表述观点时,习惯于对特定的主题进行集中表达,这种表达习惯为使用逗号进行陈述定界提供了可能性;6.目前,已经有相当多的研究者使用小句的概念作为研究对象,作为其他工作的分析基础,用来提高整体性能,这也印证了对文本进行小句划分的价值。4.3.3陈述定界方法本文使用基于标点的陈述定界方法,该方法使用了“自然标注”的思想。“自然标注”的概念是在2013年10月在第一届基于自然标注大数据的自然语言处理国际会议研讨会上提出的,“自然标注”资源指的是用户出于自身需要对文本做出的不自觉标注。标点符号是其中一个典型的例子,用户在文本中使用的大量的标点可以帮助识别文本的边界。孙茂松[54]提出“基于互联网自然标注资源的自然语言处理”的思想,指出有两种形式的自然标注:“显式自然标注”和“隐式自然标注”。标点符号就是一种典型的“显示自然标注”。这类资源是一种弱可用资源,需要对其进行多角度的研究、分析和整合。由于目前针对英文的研究工作比较多,相关的语料和资源都比较丰富,而其他的语言的资料就显得比较匮乏。本文在研究的过程中,针对微博文本中的标点这一弱标注的资源进行研究,分析它在微博小句划分中的作用,对微博文本进行陈述定界。本文中的陈述定界利用微博中的逗号,对其进行小句的拆分,使用机器学习-39-万方数据 上海交通大学硕士学位论文的方法,将逗号的类型区分作为一个二分问题来处理,使用不同类型的特征,比较了三种分类器的表现,研究在微博中使用逗号进行小句划分的效果。4.4主题抽取本文借助章节3.3中介绍的汽车本体对小句进行主题的抽取。该本体分有由两个部分组成:车型和特征本体,使用树状的层级结构,同时考虑到同一个车型或部件有多种命名方式,本文中的本体将汽车或者部件的常用昵称添加到本体对应节点中。本文使用的是基于本体的主题抽取方法,这是由于微博中的显式主题比较多,本文没有对意见挖掘任务中的主题抽取进行更多的讨论。4.5算法介绍本文将微博的陈述定界问题视为对微博中的不同主题的子句划分,再对小句进行分析,找出相关陈述主题。根据逗号作用,本文将逗号分成了停顿型逗号和分隔型逗号,使用机器学习的方法,利用微博中的文本特征和情感特征对长句进行小句定界。同时,在得到了小句之后,本文利用本体抽取出小句中的主题(Topic),得到二元组。4.5.1特征选择本文分析微博中逗号的作用,将其最为一个二分类问题来处理。假设一个长句中有两个子句A和B,它们之间有一个逗号,表示为:子句A,子句B。为了区别出子句A和B之间的逗号的类型,本文使用了下面两种特征。文本特征:根据小句的定义,可以知道小句的在文本上的特征是结构上至少包含一个谓语结构,对外部与其他的子句结构构成语法成分,同时从内容上讲,一个小句中的陈述内容围绕着一个主题展开。针对这些特点,本文中文本特征如下:1.词语特征:词本身作为一个特征,主要使用的是在逗号附近N个位置的词(这里使用N=3),A子句末尾的词,以及B开头的词;2.词性特征:由于同一个词在不同的语境下的词性是不同的,使用词性特征可以将这种不同的含义区分出来;-40-万方数据 上海交通大学硕士学位论文3.语法结构特征:小句是一个在结构上独立的单元,考虑子句A和B的语法结果和A+B整体的语法结构;4.连词特征:一些连词,如“但是”,“同时”,“此外”等表示承接、转折、递进等关系的连词,是作为小句划分的重要依据。表4-4是本文使用的特征的详细说明:表格4-4文本特征说明表Table4-4DescriptionTableoftheTextFeatures特征编号详细描述F1A句子最后N个词的词性F2B句子开头N个词的词性F3A句子最后N个词F4B句子最后N个词F5B句子第一个词的作用F6B句子第一个词的词性F7A句子的语法结构F8B句子的语法结构F9AB句子的语法结构F10F789的组合F11A句子首尾的词F12A句子首尾词的词性情感特征:考虑到一个小句中论述的是同一个主题,一般情况下,用户在意见文本中对同一个主题的意见不会发生剧烈变化,根据这一现象本文加入句子情感特征。本文考虑了AB两个子句中情感词的个数,句子整体的情感极性,以及AB两个句子的情感距离。表4-5是本文中使用的情感特征的详细说明。表格4-5情感特征说明表Table4-5DescriptionTableoftheEmotionFeatures特征标号说明M1A句子中的情感词的个数M2B句子中的情感词的个数M3A句子中的情感极性M4B句子中的情感极性M5AB句子的情感距离(M3-M4)M6AB句子的情感词个数-41-万方数据 上海交通大学硕士学位论文4.6实验、分析和讨论4.6.1实验数据本文中的实验数据由两个人员分别独立标注完成,使用交叉验证的方法保证标注数据的可靠性。使用从微博中抓取下来的数据作为实验数据。对751个微博文本,根据逗号对这些微博文本进行划分,得到了1229个子句,通过人工标注得到694个停顿型逗号,535个分隔型逗号。实验中使用了三种不同的分类器,由于本文的标注数据规模比较小,本文中没有使用独立的测试数据集,而是采用十字交叉验证对结果进行评估。4.6.2实验标准本文主要使用三个评价标准:正确率(Precision),召回率(Recall)和F值(F-measure)。计算公式分别如下:#system_correctPrecision(4-1)#system_proposed#system_correctRecall(4-2)#gold2PrecisionRecallF-measure(4-3)PrecisionRecall4.6.3实验结果和讨论1.不同分类器的评估实验本文中的实验使用章节3.5中介绍的三个分类器进行实验,比较它们的性能。表4-6显示了使用全部的文本特征的情况下,三个分类器的表现。表格4-6文本特征分类结果Table4-6ClassificationResultsbasedonTextFeatures分类器正确率召回率F值SVM0.680.6810.68朴素贝叶斯0.7110.6980.699决策树0.7360.7410.737表4-7显示了使用全部情感特征时,三种分类方式的分类结果:表格4-7情感特征分类结果Table4-7ClassificationResultsbasedonEmotionFeatures分类器正确率召回率F值SVM0.6360.5840.573-42-万方数据 上海交通大学硕士学位论文朴素贝叶斯0.5970.5860.587决策树0.610.5870.586表4-8显示了使用全部文本特征和情感特征作为输入,三种分类器的分类结果。表格4-8所有特征分类结果Table4-8ClassificationResultsbasedonAllFeatures分类器正确率召回率F值SVM0.6990.70.699朴素贝叶斯0.7160.7040.706决策树0.7360.7410.737从上面三个表中可以发现,在三种分类方法中,决策树的结果最好。但出乎本文意料的是在添加了情感特征后,决策树的正确率没有发生变化,对此,下面继续使用决策树的分类方法对不同特征进行进一步评估。2.不同特征的评估实验本实验使用决策树作为分类器,对不同的特征以及特征组合进行研究,不同的组合下分类结果如表4-9所示。表格4-9不同特征组合的分类结果Table4-9ClassificationResultsofdifferentcombinationsoffeatures序号特征正确率召回率F值1All0.7360.7410.7372-F10.7380.7420.7383-F20.7360.7410.7374-F30.7490.7530.7495-F40.7460.7520.7466-F50.7360.7410.7377-F60.7360.7410.7378-F70.7360.7410.7379-F80.7360.7410.73710-F90.7360.7410.73711-F100.7360.7410.73712-F110.7390.7430.7413-F120.7390.7430.7414F123456789100.7430.7470.74415F1234567890.7430.7470.74416F123456100.7430.7470.74417F12456100.7460.7490.74518F1356100.7480.7520.74819F256100.7470.7510.74820F1235670.7530.7610.75421F123467890.7260.7130.714-43-万方数据 上海交通大学硕士学位论文22F1267891112+M120.7850.7820.78323F12346789+M10.7540.7620.75524F1267891112+M120.7280.7180.71925F1267891112+M1250.730.7210.72226F1267891112++M1230.7620.7690.76327F1267891112++M1240.7620.7690.76328F1267891112++M1250.7620.7690.76329F1267891112++M1260.7620.7690.76330F1267891112++M1270.7620.7690.76331F1267891112+M12345670.7620.7690.763图表4-3不同特征组合的分类结果Fig.4-3Classificationresultsofdifferentcombinationsoffeatures从实验结果中可以看到,表现最好的是第22组特征组合,从实验数据中可以发现在只使用文本特征时,可以得到最好的结果是第20组特征组合,准确率为75.3%,在加入了情感特征后,可以达到78.5%的准确率,这也证实了本文提到的使用情感特征可以对小句的划分起到一定作用的设想。3.小句中的主题抽取评估通过人工标注,从751个微博文本中总共得到了1097个小句,本文通过章节3.3中构建的本体中对这些小句进行主题提取,并通过人工方式对结果进行判定,其中主题判断正确的有887个,正确率为80.87%。对结果进行分析发现主题抽取准确率比较高的原因是在微博中,用户对一个主题发表意见时习惯用显式的方法,如微博“2012款1.4t自动尊享版,-44-万方数据 上海交通大学硕士学位论文她的内饰用材做工很精致,座椅很舒服,外观气派。”中描述了三个主题,在进行了小句的切分后,可以使用本体很好地对主题进行识别。对主题抽取错误的小句进行分析,发现主要有以下问题:1.本体中的专业词汇的覆盖率不全,比如本体中没有“轴距”、“前包围”、“格栅”等专业词,使用本体的方法对于显式主题可以很好地进行识别,但是对本体以外词汇就无法进行识别了;2.在进行主题抽取时,本文首先对小句进行了分词,分词中引起的错误也会对主题的识别造成影响,如句子“2012款宝马5系新增了主动保护安全配置”,其中“安全配置”是一个主题,分词造成的错误直接影响了后续的处理;3.在描述一个主题的时候,用户并不一定使用专用词汇,而是会使用一些其他语义相近的词,如外观这个主题,可以使用“外观”,也可以使用“设计”、“造型”、“外形”等词。综上,根据微博文本的特点,使用小句的概念对微博长句进行切分,再提取主题的做法是切实可行的。但是在一些情况下,本文提出的方法并不适用一些句法结构相对复杂的句型,如比较句等,例如“以流线的外观、高动力与低油耗等先进魅力,走进无数车主的心中。”。4.7本章小结本章首先针对目前使用的陈述定界的方法进行了回顾,通过分析微博文本中标点的使用情况,引出小句的概念,并对小句的概念和研究进行了介绍,最后提出本文提出的陈述定界和主题抽取的方法,通过实验验证该方法是切实可行的。-45-万方数据 万方数据 上海交通大学硕士学位论文第五章微博意见倾向性分析5.1微博倾向性相关研究中文微博倾向性分析是随着微博兴起而发展出来的一个新的文本意见研究的方向。有相当多的研究者发现了对微博进行意见挖掘的价值,纷纷开始了微博倾向性的研究。不少研究者基于目前已有的传统文本意见研究的工作,针对微博的特征,展开研究工作。本文针对的是汽车领域的微博文本,在第四章提出的陈述定界的基础上,对微博中根据陈述定界后的陈述进行倾向性分析。首先,本文对目前已有的针对中文微博开展倾向性研究的相关工作进行一个简单的回顾。谢丽星等人[24]对目前微博倾向性研究中常用方法展开讨论,提出一种基于层级结构的多策略文本分析框架,根据微博文本语义信息丰富,主题发散的特点,研究不同策略下的分析效果,发现使用一步三分类的效果比二步二分类的效果好,一步三分类指的是直接使用分类方法将文本分为正面、中性和负面,而不是先对文本进行主客观分类,再对主观文本进行正面和负面分类。最后他们在研究中引入了主题相关的特征,发现引入该特征后对提高分类结果的准确性有一定的作用。曹海涛[55]将心理学中的愉悦激活优势(PleasureArousalDominance,PAD)模型引入到文本情感计算中,针对基于规则或基于统计的研究方法中没有充分考虑语义信息的问题,他们使用PAD模型来表述情感,PAD指的是愉悦、激活、优势这三个维度,用PAD概念构建出一个情感模型词典,并对TF-IDF方法进行了改进,使用实验证明了该模型在主题相关和主题无关的微博文本倾向性分析上都具有不错的效果。王岩[56]利用微博中的回复信息,提出一种基于共现链的方法,将文本表示为文档链的形式。他们指出微博文本短小,可以将表示同一个主题的微博文本聚成一个话题刻画,对话题刻画进行倾向性分析。刘志明等人[57]通过分析发现一般评论文本中经常使用隐晦的表达方式,同时用户常常在描述的过程中掺杂其他事件的情感,而微博文本倾向于使用更加直接的情感表达方式。他们分析比较了不同分类器对不同类型的文本进行倾向性分析的表现,指出使用词的特征,结合SVM分类方法对微博文本进行分析可以取得比较好的结果。-47-万方数据 上海交通大学硕士学位论文从这些研究工作中可以看出,目前针对中文微博的主要研究还是基于句子级,或者是微博文本级的。另外,使用微博进行特定领域的产品意见挖掘的相关应用研究也比较少。本文基于实际的项目需求,从应用层面出发,在第四章介绍的陈述定界得到的小句的基础上进行研究,即对上文中抽取得到的二元组进行分析,得到。本文提出的意见研究方法目的在于抽取细颗粒度的意见,抽取出的是微博中不同主题的倾向性。这种细颗粒的意见挖掘结构具有更好的实用价值,从目前国内中文意见倾向性分析领域中,可以看出这种趋势。COAE2013评测中提出微博观点句要素的识别,该任务在识别观点句的任务基础上,需要对观点句子中的评价对象和对应的倾向性进行抽取。NLP&CC2013中文微博要素抽取评测中,也设置了相似的任务,要求对整条微博进行情感和情感对象的识别。表5-1和5-2分别显示了COAE2013观点句识别和句子观点要素抽取的相关结果:表格5-1微博观点句识别最好和平均结果Table5-1BestandAverageResultonIdentifyMicroblogViewsPos_RPos_PPos_F1Neg_RNeg_PNeg_F1MicroRMicroPMicroF1MacroF1Max0.5260.3500.3510.5360.4400.3970.3690.3900.3290.327Media0.2590.2240.2300.2560.2490.2330.2580.2340.2400.231表格5-2微博观点要素抽取最好和平均结果Table5-2BestandAverageResultonMicroblogViewFactorExtractionPos_RPos_PPos_F1Neg_RNeg_PNeg_F1MicroRMicroPMicroF1MacroF1Max0.5840.3150.3410.3410.3890.3000.4610.3410.3120.310Media0.2450.1760.1830.1360.1860.1330.1910.1760.1630.158图5-3显示了NLP&CC2013中的中文微博观点要素识别任务使用宽松评价标注下的最好的评测结果:表格5-3NLP&CC2013任务1最好结果Table5-3BestResultinNLP&CC2013Task1微平均宏平均正确率召回率F值正确率召回率F值0.5630.5140.5380.5580.5040.526从以上评测结果中,可以看出目前的对中文微博的观点要素,也就是细颗粒度意见研究工作相比于文本倾向性的判定更具有挑战性。本文进行的是要素级的-48-万方数据 上海交通大学硕士学位论文文本意见研究,与上面的任务不同的是,本文没有先对微博中的句子进行观点句的识别,再进行观点要素以及相应情感的抽取,而是使用了在章节2.2.2中提出的抽取流程,首先对微博中的长句进行小句的切分,并对切分后的小句进行主题抽取和情感倾向性判断。5.2基于主题相关词的微博倾向性分析对微博文本的情感倾向性研究主要有基于规则和统计两大类方法。基于规则的方法使用极性词典结合特定的规则对微博句子进行倾向性判断,基于统计的方法研究微博中的特征,使用监督或者半监督的方法,将情感倾向性问题作为文本分类问题进行处理。相关的研究显示基于统计的方法较基于规则的方法有更好的表现。本文使用基于统计的方法对小句进行研究,小句相关的定义在第四章进行了详细的阐述。通过对小句的分析,本文发现在小句中存在一类词,这些词的特点是在特定领域的特定主题下具有一定的情感倾向。在汽车领域中,“哒哒哒”这个词在多数的汽车主题下不具有情感倾向,如句子“车里的转向灯发出哒哒哒哒的声音”,该句子为一个客观句,或者说它的情感倾向性为中性,句子论述的主题为“转向灯”,但是在句子“无意中听见哒哒哒哒的响声,能够确认是发动机里面的响声”中评价的主题是“发动机”,该句子虽然也是一个客观句子,但是反映出一定程度的负面情绪。文献[24]中也提出了主题相关的倾向性分析相比于主题无关的倾向性分析,具有更好的表现。本文提出一种基于主题相关词的微博文本倾向性分析方法。需要指出的是,文献[24]提出的主题相关特征指的是出现主题词,或者在进行指代恢复后出现主题词的句子。而本文中的基于主题的词汇指的是在小句中,和特定主题相关,经常出现在某一个主题中的词,同时这些词出现往往和一定的情绪(正面或者负面)的表达有关,即,本文提出的主题相关词指的是在特定主题下能呈现出一定情感倾向的词,可以是名词,动词,形容词,副词,拟声词等。5.2.1主题相关词汇抽取上文提出的主题相关词的特点是与某个特定的主题有较高的关联性,同时在该主题下具有一定的情感倾向。为了实现这类词汇的抽取,首先需要定义词汇与主题的相关性。常用的用于提取文本特征的评估函数有文档频率(DF)、互信息(MI)、信息增益(IG)、期望交-49-万方数据 上海交通大学硕士学位论文叉熵(CrossEntropy)、词条的(CHI)和文本证据权等方法。秦进等人[58]比较了常用的几种特征抽取的方法在文本分类下的表现,发现MI和CHI的方法比期望交叉熵和文本证据权的方法效果更好,同时MI原理和实现都相对简单。本文使用互信息的方法统计一个词与不同主题的相关度,当一个词与某个主题的关联比较大时,相应的互信息也比较大,该词出现在该类别中的概率也比较高,取相关度最大的主题作为该词的主题。假设有一个数量为N的小句集合,涉及主题集合T={t1,t2,t3,…tn},一个词w与主题ti的关联可以用以下公式计算得到:ANMI(w,t)log(5-1)i(AC)(AB)其中A表示包含词w且主题为ti的小句数量,B表示包含词w且主题不为ti的小句数量,C表示主题为ti但不包含w的小句数量。一个词可能出现在多个主题中,与多个主题发生关联,这里将互信息计算结果最大的主题作为该词的相关主题。由于一个与某个主题相关的词在该主题下呈现出一定的情感倾向,即,一个与主题相关词的出现可能伴随着正面或者负面情感,为了区别出一个主题相关词的情感倾向,需要对这些词进行情感上的划分。由于本文中的语料比较少,这里本文使用文档频率(DF)来进行划分。文档频率是一种最简单的文本分类方法,DF即语料中包含该词的文档的数量[59]。假设一个词w属于主题ti,w的情感倾向使用以下公式进行计算:DF(t,POS)1S(w,t)i(5-2)iDF(t,NEG)1i当S(w,ti)大于1时该词表现为正面情感倾向,当S(w,ti)小于1时该词表现为负面情感倾向。本文将使用上述方法提取出来的词作为一个特征,使用SVM分类器,研究该特征在情感分类上的作用。5.2.2特征选择文献[24]中指出使用一步三分类的思想比二步两分类的表现更好,所以本文将倾向性分类作为一个文本三分类问题,将文本分为正面、中性和负面。下面具体介绍本文中考虑的特征:1.词语特征-50-万方数据 上海交通大学硕士学位论文微博文本相对其他文本而言,内容较短,同时本文中又对微博文本进行了切分,通过统计发现一个小句的平均长度只有24个字符。相关研究表明了在微博文本倾向性分析中,词的特征是一个相当重要的特征,因此,本文中将这一特征作为一个基本特征。本文使用词的TF-IDF特征。TF-IDF(termfrequency–inversedocumentfrequency)11广泛用于信息检索和文本挖掘中,体现了一个词的重要程度。基本思想是:一个词在一个文本中出现的次数越多,它的重要性越强,除此以外还需要考虑该词在数据集中出现的文本数目。TF-IDF由两部分组成:词频(termfrequency,TF)和逆向文本频率(InverseDocumentFrequency,IDF)。TF指的是一个词在文本中出现的频率,对于文档dj来说,一个词ti的计算公式为:ni,jtfi,j(5-3)n,kkj其中,n表示的是ti在dj中出现的次数,公式中的分母是文档dj中出现的所i,j有的词的次数总和。IDF体现的是一个词ti在一个数据中的普遍重要性,它的计算公式为:|D|idflog(5-4)i|{j:td}|ij其中,D表示数据集中总的文档的数目,公式中的分母表示的是词ti出现过的文档的数目。为了避免分母出现零的情况出现,本文使用了加1作为平滑算子,使用公式:ni,jtfi,j(5-5)n,1kkj|D|idfilog(5-6)|{j:td}|1ij2.语法结构特征句子中的语法结构可以从语义上理解句子陈述的内容,在一个陈述中,如果一个情感词与陈述中的主题构成一定关系,则可以认为他们之间构成一定的关系,本文中使用这种关系作为一类特征,在语法关系中,情感词和主题词之间的常用11http://zh.wikipedia.org/wiki/TF-IDF-51-万方数据 上海交通大学硕士学位论文的关系有:主谓关系,动宾关系,定补关系等。本文中通过语法分析器分析出主题词和情感词之间的关系,将它们之间的语法关系抽取出来,作为一个特征。3.极性词特征极性词在文本倾向性研究中起到重要的作用,不论是使用基于规则的方法还基于统计学习的方法,极性词都是一个重要的特征,本文中使用章节3.4中提到的极性词典从小句中抽取情感词,作为一个特征。本文中使用的情感词的特征为一个陈述中出现的两种不同的情感词的个数,以及陈述的情感值。一个陈述的情感值指的是陈述中出现的极性词的加权平均值。4.主题词特征这部分特征在小节5.2.1中进行了具体说明。5.2.3分类器选择本文中将情感倾向性分类问题作为一个文本分类问题来进行处理,相关研究表明基于统计的方法较基于规则的方法效果更好。在文本分类中,一个重要的问题是分类算法的选择。在文本分类工作中,相关研究工作[59-60]中比较了不同分类器在不同任务表现出来的性能,发现由于文本分类问题往往是线性可分的,SVM具有较好的表现。刘志明等人[49]分析比较了不同分类器对不同类型的文本进行倾向性分析的表现,指出使用词的特征,结合SVM分类方法对微博文本进行分析可以取得比较好的结果。本文选择SVM作为分类器进行实验,比较不同特征下微博文本情感倾向性分析的结果,验证本文提出的基于主题相关词的有效性。5.3实验、分析和讨论5.3.1实验数据本实验中使用的二元组作为输入,采用人工标注对数据进行标注,一共涉及1000个主题文本,其中136个负面,152个中性,712个正面。采用LibSVM进行分类,由于数据量比较小,实验中使用十倍交叉验证的方法对结果进行评估。-52-万方数据 上海交通大学硕士学位论文5.3.2实验结果和讨论在微博文本倾向性分类的研究中,微博文本中的词的特征可以得到比较好的效果,本文中使用词的特征作为基准(baseline),研究其他特征对倾向性分类的贡献。本文在第四章介绍的方法上,对意见二元组进行倾向性研究。本文中的陈述指的对微博中的长句进行小句划分,并使用本体进行主题抽取得到的结果。本文使用这样的方法是因为中文微博中使用较多的长句,同时微博文本篇幅较短,使用一般的基于微博句子的微博细颗粒分析方法不能给出很好的效果,本文使用了更加细的意见挖掘方法。为了验证对微博长句进行小句划分的作用,本文使SVM分类方法,比较对主题进行了小句的划分和直接使用主题词所在的句子作为对象,倾向性分析的表现。这里使用了词的特征,采用十倍交叉验证的方法进行实验,结果如表5-7所示:表格5-4小句划分与不划分倾向性分类结果Table5-4ClassificationResultonsmall-sentence-dividedandnot-dividedPrecisionRecallF小句划分0.8110.8910.849直接使用句子0.7870.8690.826从表5-4中可以看出在对微博长句进行了小句划分后,情感倾向性的分类结果有了较大的提高。在小句的基础上,本文使用SVM分类器进行小句的情感倾向性实验,使用正确率(Precision),召回率(Recall)和F值(F-measure)作为实验标准,在不同的特征上进行测试,最后得到了表5-5所示的结果。表格5-5不同特征对微博陈述的倾向性判断的效果Table5-5PerformanceofMicroblogsentimentbasedondifferentfeatures特征PrecisionRecallF词语0.8110.8910.849+语法结构0.8110.8910.849+极性词0.7990.8760.836+主题词0.8190.8990.857本实验中将词的特征作为基准,在此基础上添加不同的特征,比较它们的表现。从表5-5中可以看到,添加了极性词特征之后,整体的结果变差了,这可能是由于微博文本中使用比较多的不规范的词,极性词典的覆盖面不全导致的。同时通过表5-5可以发现,主题词特征具有比较好的表现,证明了本文提出的基于-53-万方数据 上海交通大学硕士学位论文主题词特征是有效的。5.4本章小结本章首先对目前的微博文本意见研究进行了介绍,通过分析微博文本,提出一种基于主题研究方法,最后通过实验,比较了不同特征的表现,通过实际结果证明了本文提出的中文微博倾向性分析方法是有效的。-54-万方数据 上海交通大学硕士学位论文第六章总结和展望6.1总结文本意见挖掘由于具有相当的应用价值,一直来都是自然语言处理中一个重要的研究领域,对产品进行意见挖掘研究可以给用户提供决策依据,给商家提供战略分析的可靠数据。微博的蓬勃发展,通过微博进行信息获取和发布的用户越来越多,微博产生了大量数据,其中也包含了很多的意见信息。微博文本非常适合用于意见挖掘研究,对微博数据进行有效处理,找出细颗粒度的意见元素,是一个新的研究热点。本文研究汽车领域的微博文本,通过分析微博的文本特点,提出了一个适合于微博的意见分析流程。本文研究的背景基于实际的项目需求,为了得到细颗粒度的结果,本文首先对微博进行基于标点的陈述定界,将微博中的长句拆分成小句,使用汽车本体抽取小句中的主题,在对抽取出来的二元组信息进行基于主题的情感分析,最后综合得到意见三元组。本文的主要工作如下:1.分析微博文本中的标点使用情况,使用小句概念,研究微博中长句的特点,进行小句拆分,进行陈述定界;2.本文将四元组的概念应用到微博研究中,将微博意见挖掘分为了三个步骤:小句定界;陈述抽取;倾向性分析。对一般的文本分析流程的提出了一定的改进;3.针对微博文本进行研究,提出基于主题的特征,在进行微博文本倾向性分析时添加该特征;4.提出基于汽车领域的中文微博文本意见倾向性分析流程,结合目前已有的研究技术和方法,在中文微博细颗粒意见挖掘上进行了探索和尝试。6.2展望本文针对目前已有的文本意见分析系统,综合考虑微博的特点对微博意见分析系统进行了初步的探索。由于时间和精力的有限,本文的工作还有很多需要继续改进的地方:-55-万方数据 上海交通大学硕士学位论文1.在微博文本进行陈述定界时,本文使用了小句的概念,主要使用的标点符号为微博句子中常用的逗号,可以考虑通过更多的分析,对微博中的标点进行更加全面的研究,使用更多的特征来进行小句划分;2.本文使用本体进行主题抽取,虽然可以定位到大部分的主题,但是由于本体本身的缺陷,在进行主题抽取时,本体中使用的规则和本体的覆盖率都会对主题抽取的结果产生直接的影响,另外对于隐式主题的抽取,本体不能起到很好的效果;3.微博中存在很多的省略现象,对微博进行省略恢复,可以提高微博文本分析的效果;4.本文中使用的数据采自新浪微博,没有使用公开的评测。这是由于本文中针对的是基于汽车领域的微博文本,目前评测还没有做到这么细致,也没有相关公开语料,所以本文中的实验数据通过自己采集和标注得到。但是这样导致的一个问题是,本文中实验的数据量不大,需要对更大的实验数据进行测试并展开更加深入的研究;5.本文中使用四元组模型,由于在微博文本中,大部分的意见持有人都为微博发布者自己,本文没有对意见持有者进行识别,后续工作中可以对微博持有人进行识别,帮助提高意见分析结果;6.本文提出的中文微博意见倾向性分析方法针对的是汽车领域,并没有对其他领域进行尝试,在接下来的工作中,可以尝试将本文提出的工作框架应用到其他领域中。7.使用分词和句法分析工具时,会不可避免地引入一些错误,对后续的处理有直接的影响。-56-万方数据 上海交通大学硕士学位论文参考文献[1]ZhuangL,JingF,ZhuXY.Moviereviewminingandsummarization[C]//Proceedingsofthe15thACMinternationalconferenceonInformationandknowledgemanagement.ACM,2006:43-50.[2]KajiN,KitsuregawaM.Automaticconstructionofpolarity-taggedcorpusfromHTMLdocuments[C]//ProceedingsoftheCOLING/ACLonMainconferencepostersessions.AssociationforComputationalLinguistics,2006:452-459.[3]HuM,LiuB.Miningandsummarizingcustomerreviews[C]//ProceedingsofthetenthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2004:168-177.[4]TurneyPD.Thumbsuporthumbsdown?:semanticorientationappliedtounsupervisedclassificationofreviews[C]//Proceedingsofthe40thannualmeetingonassociationforcomputationallinguistics.AssociationforComputationalLinguistics,2002:417-424.[5]PangB,LeeL,VaithyanathanS.Thumbsup?:sentimentclassificationusingmachinelearningtechniques[C]//ProceedingsoftheACL-02conferenceonEmpiricalmethodsinnaturallanguageprocessing-Volume10.AssociationforComputationalLinguistics,2002:79-86.[6]DaveK,LawrenceS,PennockDM.Miningthepeanutgallery:Opinionextractionandsemanticclassificationofproductreviews[C]//Proceedingsofthe12thinternationalconferenceonWorldWideWeb.ACM,2003:519-528.[7]nlp.stanford.edu/courses/cs224n/2011/reports/patlai.pdf.[8]TumasjanA,SprengerTO,SandnerPG,etal.PredictingElectionswithTwitter:What140CharactersRevealaboutPoliticalSentiment[J].ICWSM,2010,10:178-185.[9]TumasjanA,SprengerTO,SandnerPG,etal.PredictingElectionswithTwitter:What140CharactersRevealaboutPoliticalSentiment[J].ICWSM,2010,10:178-185.[10]PakA,ParoubekP.TwitterasaCorpusforSentimentAnalysisandOpinionMining[C]//LREC.2010.[11]BerminghamA,SmeatonAF.Classifyingsentimentinmicroblogs:isbrevityanadvantage?[C]//Proceedingsofthe19thACMinternationalconferenceonInformationandknowledgemanagement.ACM,2010:1833-1836.[12]KumarA,SebastianTM.SentimentAnalysisonTwitter[J].IJCSIInternationalJournalofComputerScienceIssues,2012,9(3):372-378.-57-万方数据 上海交通大学硕士学位论文[13]DavidovD,TsurO,RappoportA.Enhancedsentimentlearningusingtwitterhashtagsandsmileys[C]//Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics:Posters.AssociationforComputationalLinguistics,2010:241-249.[14]BarbosaL,FengJ.Robustsentimentdetectionontwitterfrombiasedandnoisydata[C]//Proceedingsofthe23rdInternationalConferenceonComputationalLinguistics:Posters.AssociationforComputationalLinguistics,2010:36-44.[15]ReadJ.Usingemoticonstoreducedependencyinmachinelearningtechniquesforsentimentclassification[C]//ProceedingsoftheACLStudentResearchWorkshop.AssociationforComputationalLinguistics,2005:43-48.[16]GoA,BhayaniR,HuangL.Twittersentimentclassificationusingdistantsupervision[J].CS224NProjectReport,Stanford,2009:1-12.[17]NasukawaT,YiJ.Sentimentanalysis:Capturingfavorabilityusingnaturallanguageprocessing[C]//Proceedingsofthe2ndinternationalconferenceonKnowledgecapture.ACM,2003:70-77.[18]JiangL,YuM,ZhouM,etal.Target-dependentTwitterSentimentClassification[C]//ACL.2011:151-160.[19]PangB,LeeL.Asentimentaleducation:Sentimentanalysisusingsubjectivitysummarizationbasedonminimumcuts[C]//Proceedingsofthe42ndannualmeetingonAssociationforComputationalLinguistics.AssociationforComputationalLinguistics,2004:271.[20]文坤梅,徐帅,李瑞轩,等.微博及中文微博信息处理研究综述[J].中文信息学报,2012,26(6):27-37.[21]YuL,AsurS,HubermanBA.WhattrendsinChinesesocialmedia[J].arXivpreprintarXiv:1107.3522,2011.[22]韩忠明,张玉沙,张慧,等.有效的中文微博短文本倾向性分类算法[J].计算机应用与软件,2012,29(10):89-93.[23]庞磊,李寿山,周国栋.基于情绪知识的中文微博情感分类方法[J].ComputerEngineering,2012,38(13).[24]谢丽星,周明,孙茂松.基于层次结构的多策略中文微博情感分析和特征抽取[J].中文信息学报,2012,26(1):73-83.[25]KimSM,HovyE.Determiningthesentimentofopinions[C]//Proceedingsofthe20thinternationalconferenceonComputationalLinguistics.AssociationforComputationalLinguistics,2004:1367.[26]YiJ,NasukawaT,BunescuR,etal.Sentimentanalyzer:Extractingsentiments-58-万方数据 上海交通大学硕士学位论文aboutagiventopicusingnaturallanguageprocessingtechniques[C]//DataMining,2003.ICDM2003.ThirdIEEEInternationalConferenceon.IEEE,2003:427-434.[27]KatzB.Fromsentenceprocessingtoinformationaccessontheworldwideweb[C]//AAAISpringSymposiumonNaturalLanguageProcessingfortheWorldWideWeb.StanfordUniversity,1997,1:997.[28]NasukawaT,YiJ.Sentimentanalysis:Capturingfavorabilityusingnaturallanguageprocessing[C]//Proceedingsofthe2ndinternationalconferenceonKnowledgecapture.ACM,2003:70-77.[29]HearstM.Direction-basedtextinterpretationasaninformationaccessrefinement[J].Text-BasedIntelligentSystems,1992:257-274.[30]MorinagaS,YamanishiK,TateishiK,etal.Miningproductreputationsontheweb[C]//ProceedingsoftheeighthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2002:341-349.[31]SackW.Onthecomputationofpointofview[C]//AAAI.1994:1488.[32]TongRM.Anoperationalsystemfordetectingandtrackingopinionsinon-linediscussion[C]//WorkingNotesoftheACMSIGIR2001WorkshoponOperationalTextClassification.2001,1:6.[33]TurneyPD.Thumbsuporthumbsdown?:semanticorientationappliedtounsupervisedclassificationofreviews[C]//Proceedingsofthe40thannualmeetingonassociationforcomputationallinguistics.AssociationforComputationalLinguistics,2002:417-424.[34]BethardS,YuH,ThorntonA,etal.Automaticextractionofopinionpropositionsandtheirholders[C]//2004AAAISpringSymposiumonExploringAttitudeandAffectinText.2004:2224.[35]WilsonT,WiebeJ,HoffmannP.Recognizingcontextualpolarityinphrase-levelsentimentanalysis[C]//ProceedingsoftheconferenceonHumanLanguageTechnologyandEmpiricalMethodsinNaturalLanguageProcessing.AssociationforComputationalLinguistics,2005:347-354.[36]PopescuAM,NguyenB,EtzioniO.OPINE:Extractingproductfeaturesandopinionsfromreviews[C]//ProceedingsofHLT/EMNLPoninteractivedemonstrations.AssociationforComputationalLinguistics,2005:32-33.[37]李林琳.基于特定领域的汉语句子意见挖掘[D].上海交通大学,2008.[38]柳位平,朱艳辉,栗春亮,等.中文基础情感词词典构建方法研究[J].计算机应用,2009,29(11):2882-2884.[39]QiuG,LiuB,BuJ,etal.ExpandingDomainSentimentLexiconthroughDoublePropagation[C]//IJCAI.2009,9:1199-1204.-59-万方数据 上海交通大学硕士学位论文[40]邢福义.小句中枢说[J].中国语文,1995,6:420-428.[41]GamonM,AueA,Corston-OliverS,etal.Pulse:Miningcustomeropinionsfromfreetext[M]//AdvancesinIntelligentDataAnalysisVI.SpringerBerlinHeidelberg,2005:121-132.[42]姚天昉,聂青阳,李建超,等.一个用于汉语汽车评论的意见挖掘系统[C][C]//中文信息处理前沿进展-中国中文信息学会二十五周年学术会议论文集.北京:清华大学出版社,2006:260-281.[43]HuM,LiuB.Miningandsummarizingcustomerreviews[C]//ProceedingsofthetenthACMSIGKDDinternationalconferenceonKnowledgediscoveryanddatamining.ACM,2004:168-177.[44]YiJ,NiblackW.SentimentmininginWebFountain[C]//DataEngineering,2005.ICDE2005.Proceedings.21stInternationalConferenceon.IEEE,2005:1073-1083.[45]董振东,董强.知网[J].Hownet).http://www.keenage.com,1999.[46]刘群,李素建.基于《知网》的词汇语义相似度计算[J].中文计算语言学,2002,7(2):59-76.[47]MitchellTM.Machinelearning.1997[J].BurrRidge,IL:McGrawHill,1997,45.[48]JoachimsT.Textcategorizationwithsupportvectormachines:Learningwithmanyrelevantfeatures[M].SpringerBerlinHeidelberg,1998.[49]黄河燕,陈肇雄.基于多策略分析的复杂长句翻译处理算法[J].中文信息学报,2002,16(3):1-7.[50]储泽祥.小句是汉语语法基本的动态单位[J].汉语学报,2004,2:007.[51]李艳翠,冯文贺,周固栋,等.基于逗号的汉语子句识别研究[J].北京大学学报:自然科学版,2013(1):7-14.[52]XueN,YangY.Chinesesentencesegmentationascommaclassification[C]//ACL(ShortPapers).2011:631-635.[53]xunJinM,KimMY,KimD,etal.SegmentationofChineselongsentencesusingcommas[C]//ProceedingsofSIGHAN.2004:1-8.[54]孙茂松.基于互联网自然标注资源的自然语言处理[J].中文信息学报,2011,25(6):26-32.[55]曹海涛.基于PAD模型的中文微博情感分析研究[D].大连理工大学,2013.[56]王岩.基于共现链的微博情感分析技术的研究与实现[D][D].国防科学技术大学,2011.[57]刘鲁,刘志明.基于机器学习的中文微博情感分类实证研究[J].计算机工程与应用,2012,48(1).-60-万方数据 上海交通大学硕士学位论文[58]秦进,陈笑蓉,汪维家,等.文本分类中的特征抽取[J].计算机应用,2003,23(2):45-46.[59]RiosG,ZhaH.ExploringSupportVectorMachinesandRandomForestsforSpamDetection[C]//CEAS.2004.[60]刘冬,李胃胜.基于SVM的网络聊天用户情感判断[J].科协论坛,2012(12).-61-万方数据 万方数据 上海交通大学硕士学位论文致谢本文中的工作,离不开很多人的帮助。这里,我需要对很多人表示我由衷的感谢!首先,我十分感谢姚天昉教授。作为我的导师,姚老师对我的研究工作提供了非常多的帮助,在本文的选题和研究过程中,姚老师积极鼓励我们结合自己的兴趣进行选择。平时,姚老师经常将他在最新会议上看到的研究成果分享给我们,帮助我们打开思路,做好研究。在和姚老师一起出国参加学术会议期间,姚老师严谨认真的态度都令我受益匪浅。除了在科研上为我们提出很多珍贵的建议,姚老师也非常关注我们的学习和日常生活。在我出现问题时,姚老师会在私下指出并鼓励我积极改正。在我看来,姚老师不仅是一位严谨治学的学者,也是一位关爱学生的长辈。感谢上海网慧公司提供的支持,在和公司合作的过程中,我积累了相关的经验和技术,同时通过和公司对项目中遇到的实际问题的讨论,也为本文中的研究提供了一定的思路。通过与公司方的项目合作,我认识到了意见挖掘研究中潜藏的巨大价值,用自然语言技术进行细颗粒度的文本意见分析是一个很具现实意义的研究方向。感谢实验室的所有同学,在实验室两年半的生活中,我们共同经历了很多事。在我刚进入实验室期间,学长学姐给予了我很多的帮助。我们的实验室就像是一个大家庭,在这里,我结识了很多有梦想、有激情的伙伴,我们共同参加项目,一起进行学术交流和讨论,一起分享知识,在这个过程中,我的能力得到了锻炼,知识面得到了扩展,同时也对团队有了更多的认识,一个项目的成果依靠所有人的力量,队友之间的相互鼓励和支持能使我们做得更好。也许在项目的开发过程中,很多事情会令我们感到烦恼,但是看到最后的收获,那些令人纠结的事情也不算什么了,还记得我们开例会讨论进展,和公司方协商,在实验室奋战到深夜,解决项目中出现的问题,迎战突然来袭的需求,一起出去K歌,一起在KFC玩三国杀……这所有的一切,都将成为我最美好的回忆。感谢我的室友,两年多的相处,我们从陌生人到好友,在这不长不短的相处时光中,我们互相见证了对方的成长,我很珍惜我们相处的日子,感觉每一天都很充实。感谢我的老师、同学,他们每一个人身上都有不一样的闪光点,值得我去-63-万方数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
大家都在看
近期热门
关闭