欢迎来到天天文库
浏览记录
ID:5268451
大小:1.18 MB
页数:12页
时间:2017-12-07
《基于句子级情感的中文网络评论的情感极性分类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第16卷第9期2013年9月管理科学学报JOURNALOFMANAGEMENTSCIENCESINCHINAV01.16No.9Sep.2013基于句子级情感的中文网络评论的情感极性分类①王洪伟1,郑丽娟1,尹裴1,何绍义2(1.同济大学经济与管理学院,上海200092;2.加州州立大学圣马可斯分校商学院,圣马可斯,美国)摘要:为提高网络评论段落的情感极性分类准确率,在考虑AA'1表达.--j惯和语料粒度的基础上,提出一种基于句子情感的段落情感极性分类方法.该方法通过句子的情感极性和句子的情感极性贡献度来对段落进行情感分类,采用传统分类方法预测句子的情感极性
2、,提出等权重、相关度、情感条件假设3种方法,能够根据训练语料的统计数据动态地确定段落中不同位置句子的情感极性贡献度.最后,以超过2个句子的手机和酒店网络评论为对象进行实验分析,实验结果显示,与传统方法相比,考虑了人们表达习惯的相关度和情感条件假设方法显著提高了段落分类的准确率,且具有一定的自适应性.关键词:情感极性;句子情感;段落情感;中文网络评论;情感极性贡献度中图分类号:C931.6;H042文献标识码:A文章编号:1007—9807(2013)09—0064—1l0引言近年来,越来越多的用户愿意在线分享自己的观点.这些评论反映了用户对产品(服务)的看法.另一方
3、面,在电子商务环境下,由于缺少线下体验,用户更倾向于先看网络评论,后做购买决策.然而,由于分析手段薄弱,面对海量的评论,商家难以识别用户的情感倾向,更无法根据用户反馈及时改进产品和调整价格,从而影响商家的业绩.为此,情感极性分析(sentimentpolarityanaly.sis)技术应运而生,也就是对网评的文本进行分析,判断用户的观点是“赞同”还是“反对”,或识别情感趋向是“高兴”还是“伤悲”.最初的研究关注面向句子的情感极性分析.然而,用户的情感表露错综复杂,常常发表混合观点评论,既肯定某方面,同时又在批评其它方面.混合观点评论具有句子多、信息量大、噪音多、情
4、感表达复杂等特点.如果将面向句子的方法直接应用在面向段落的(即整篇评论)情感极性分析中,准确率将降低.为此,一些学者主张按照产品(服务)特征,将混合观点评论分割成若干个评论片段,然后采用面向句子的方法对评论片段进行情感极性分析【l。3J.诚然,这种做法可以细粒度地分析用户的情感倾向,却无法给出用户对该产品(服务)的整体观点.基于上述原因,在考虑用户表达习惯和语料粒度的基础上,本文提出一种基于句子情感的段落情感极性分类方法.该方法具有一定的自适应性,可以给出用户对产品(服务)的整体观点,且能显著提高段落的分类准确率.1相关研究综述1.1传统的情感分类方法情感极性分类主
5、要基于两种研究范式:情感①收稿日期:2011—06—27;修订日期:2013—03—04.基金项目:国家自然科学基金资助项目(70971099;71371144);中央高校基本科研业务费专项资金资助项目(1200219198);上海市哲学社会科学规划课题一般资助项目(2013BGL004);上海市科技发展基金软科学研究博士生学位论文资助项目(12692193000).作者简介:王洪伟(1973一),男,辽宁大连人,博士,副教授,博士生导师.Email:hwwang@tongji.edu.cn万方数据第9期王洪伟等:基于句子级情感的中文网络评论的情感极性分类一65一词
6、汇语义特性和统计自然语言处理.1)基于情感词汇语义特征的方法这类方法是利用词汇的感情倾向来判断评论文本的情感极性.首先计算或判断词汇或词组的褒贬倾向性,再对段落中极性词汇或词组计数,或对其褒贬程度值求和或求均值,或结合句法分析等获得句子或段落的整体情感极性.Turney【41提出基于情感词组的SO-PMI语义分类方法.该方法提取符合一定模式的形容词或副词双词词组作为情感词组,并计算抽取出的词组与情感词“excellent”和“poor”的PMI值和SO(semanticopinionorientation)值,最后通过计算评论中所有提取出的情感词组的平均SO值来区分
7、汇相似度判断词汇的倾向性,并结合句法分析结果和词汇语义倾向性衡量句子褒贬倾向性.实验结果表明,该方法的计算结果与人工判别结果比较接近.闻彬等帕1提出基于语义理解的文本情感分类方法.该方法首先提取符合一定规则的由形容词、名词、动词构成的5种情感词组,并通过语义处理计算抽取出的情感词组的情感值,最后采用统计的方法,将所有词组的情感值进行累加从而得到文本的情感值,并根据该值的大小判定文本的情感倾向性.2)基于统计自然语言的方法这类方法的流程如图1,即经过预处理、文本表示(特征项选择、特征项降维、特征项权重设情感极性.熊德兰掣51选取褒贬基准词,根据词置)、分类器处理,
此文档下载收益归作者所有