欢迎来到天天文库
浏览记录
ID:44259607
大小:48.50 KB
页数:9页
时间:2019-10-20
《文本情感研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、文本情感研究综述摘要:文本情感分类是指通过挖掘和分析文本屮的观点、意见和看法等主观信息,对文木的情感倾向作出类别判断。阐述情感分析的研究应用背景,并给出基本的研究思路;分析整体的研究现状,详细回顾了主要的处理方法;在特征标注阶段,重点介绍和讨论了两类主流的处理思路一—监督学习和非监督学习;简要介绍了其他一些相关的情感分析问题;总结了情感分析的现冇成就和不足,以及面临的挑战,并对其发展前景进行了展望。关键词:情感分析;观点分类;特征抽取;文本分析中图分类号:TP3-05文献标识码:A文章编号:16727800(2012)009000303
2、1文木情感研究的背景所谓文本情感分析(SentimentAnalysis),就是对说话人的观点、态度和情感倾向性进行分析,即分析文本中表达的主观性信息。根据立场、出发点、个人态度和喜好的不同,人们对各种対象和事件表达的信念、态度、意见和情感的倾向性不可避免地存在差异。在论坛、微傅等反映人们观点的网络媒体上,尤其表现出了这种差异。文本情感分析在实际生活中有着广泛的应用,可以应用于产品推荐系统、有害信息过滤、社会舆情分析、产品在线跟踪和质量评价、影视评价、Blogger声誉评价、新闻报道评述、事件分析、股票评论、图书推荐、敌对信息检测、企业
3、情报系统等方面。在已有研究中,文本情感分析也被称作观点鉴别(OpinionClassification)>流派分类(Genreclassification)>情感的极性(Sentimentpolarity)、语义彳顷向(semanticorientation)、观点扌空掘(opinionmining)>观点抽取(opinionextractive)等,为了表述的一致性,本文中将其统一表述为情感分析。文本情感分析通常包含4个子问题:①确定文本情感的类别有多少;②文本的主客观区分,即区分出文本内容是主观评论还是客观陈述;③文本的极性分类(P
4、olarityClassification),又称为正负面倾向性分类,即判别文本内容是肯定赞赏的,还是否定批判的;④文本情感强度分类,即判定文本情感倾向性的强弱程度,如强烈贬义、一般贬义、客观、一般褒扬、强烈褒扬5个类别,这一问题通常又被称为等级推理(RatingInference)o2文木情感分析整体研究现状目前,公认的关于文本情感分析的研究工作开始于Pang在2002年提出的基于文本的N元语法(Ngram)和词类(POS)等特征,分别使用朴索贝叶斯(NaiveBayes),最大爛(MaximumEntropy)和支持向量机(Supp
5、ortVectorMachine,SVM)将电影评论文本的倾向性分为正向和负向两类。此外还有Turney在2002年提出的基于无监督学习(UnsupervisedLearning)对文本情感倾向性分类的研究。同时他们在实验中使用的电影评论数据集目前已成为广泛使用的情感分析的测试集。如今,国内外都已经掀起了文本情感的研究热潮,很多研究团体、科研院校、公司已经对文本情感展开了研究。把这些相关的研究分为4个阶段:①语料阶段;②文本的预处理阶段;③特征标注与特征选择阶段;④情感分类阶段。2.1语料阶段目前绝大部分语料都来自博客、专业的评论站点、
6、新闻站点、电子商务站点。而其中影评资料、产品的用户评论、Web2.0博客文章是研究者的首选。康奈尔大学的电影评论数据集以及TheresaWilson等建立的MPQA库是目前研究者广泛使用的两类情感分析数据集。2.2文本的预处理阶段文本情感分析的预处理包括:停用词、词缀修剪、N元词、词性标准、简化替换(如书替换为NOUN、照相机替换产品名)等,但这些有意“美化”的处理都会降低情感分析的准确率。此外,主观句识别也属于文木情感分析的预处理阶段。该研究的目标是需要提取文本的真正表达情感的句子。Pang于2004年提出基于文本中的主观句的选择和W
7、ilson等人于2005年开创了在短语层进行主观性分析的研究工作,提出基于文本中中性实例(NeutralInstances)的分析,他们根据28个混合特征训练了一个分类器,都是为了能够尽量获得文本中真正表达情感的句子oAbbasi于2008年提出通过信息增益(InformationGain,简称IG)的方法来选择大量特征集中对于情感分析有益的特征。2.3特征标注与特征选择阶段情感特征的标注方法目前主耍包括:(1)监督机器学习的方法,由已有的电子词典或词语知识库扩展生成的情感倾向词典。情感词就是指具有情感倾向的词语以名词、动词、形容词和副
8、词为主,包括人名、机构名、产甜名、事件名等命名实体。其屮,部分词语的褒贬性(或称为极性,通常分为褒义、贬义和中性)可以通过查字典获得,其它的极性与情感倾向性的强烈程度都无法直接获得。使用情感词作为特征的研究
此文档下载收益归作者所有