基于svm的中文产品评论情感分类研究

基于svm的中文产品评论情感分类研究

ID:23160966

大小:51.50 KB

页数:5页

时间:2018-11-04

基于svm的中文产品评论情感分类研究_第1页
基于svm的中文产品评论情感分类研究_第2页
基于svm的中文产品评论情感分类研究_第3页
基于svm的中文产品评论情感分类研究_第4页
基于svm的中文产品评论情感分类研究_第5页
资源描述:

《基于svm的中文产品评论情感分类研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、基于SVM的中文产品评论情感分类研究随着电子商务的飞速发展,X络上的产品评论数量也随着飞速增长。如何从大量的产品评论中挖掘出有效信息,已经成为一个重要的研究领域。情感分类将产品评论自动分为正面评论和负面评论两类,是一项有较大实用价值的分类技术,能帮助人们自动分析产品评论中包含的用户观点信息。本文针对中文产品评论的多种特征,使用SVM作为分类方法,比较分析了不同特征对分类效果的影响。实验结果表明,选择适当的特征,使用SVM可以获得较好的情感分类效果。关键词:情感分类;产品评论;特征选择;支持向量机1.引言  随着进

2、行产品评论的情感分类工作,研究了各类特征对情感分类效果的影响。实验表明,使用SVM分类方法,在选择适当特征集的情况下,产品评论的情感分类能取得较好效果。2.相关研究工作  Turney[2]提出了一个无监督的评论情感分类算法。首先抽取出评论中包含形容词和动词的满足特定条件的短语;然后利用PMI-IR算法计算短语与“excellent”和“poor”的互信息差值,利用该差值表示短语的情感极性分值;最后计算评论中所有短语的情感极性的均值,并利用该均值作为评论的情感倾向。叶强等[3]针对中文产品评论改进了Turney的

3、算法,计算短语与带有强烈正面和负面情感倾向的情感词集合之间的互信息差值,并设置情感词集合的平均情感极性分值作为判断情感倾向的阈值。  Pang等[4]针对电影评论,使用unigrams、bigrams、POS(part-ofspeech)tags及其组合作为特征集,利用朴素贝叶斯、极大熵和SVM三种机器学习方法将电影评论分为正面评论和负面评论两类。实验结果表明,选择unigrams作为特征集,使用SVM分类方法获得了最好的分类效果。Na等[5]使用SVM作为分类器,研究了unigrams、动词、形容词、副词、否定

4、短语对评论情感分类的影响。唐慧丰等[6]针对中文评论,研究了不同特征集、不同特征选择方法以及不同文本分类方法,在不同的特征数量和不同规模的训练集情况下,情感分类的效果。Zhai等[7]抽取了中文产品评论中的关键子串作为特征,利用SVM进行情感分类。叶强等[8]比较了SVM和无监督情感分类算法在中文评论情感分类中的效果。3.产品评论情感分类3.1文本特征表示  现有文本分类技术遵从“特征和文本类别是密切相关的”这一前提假设,通常采用向量空间模型(VSM)表示文本。进行评论情感分类之前,首先需要把数据集中的文本表示为

5、特征空间中的向量,向量中一个分量对应于一个特征,它的值为该分量对应的特征在该文本中的权值。3.2特征提取和构造  经过对大量产品评论的分析并结合前人的研究工作,选取了4类特征进行评论情感分类任务:  ⑴Unigrams:使用ICTCLAS(.nlp.org.)对评论进行分词,并选取CHI值最大的前N个词作为特征。  ⑵情感词:情感分类主要依赖于情感词的情感倾向,本文使用知X提供的“情感分析用词语集”,同时又根据电子产品评论的特性,手工对知X的情感词典进行修正。  ⑶语法特征:Unigrams只能捕获评论中的词,但

6、是无法描述评论中多个词之间的语法关系。本文使用哈尔滨工业大学的语言技术平台(ir.hit.edu.)抽取了符合“形容词-名词”“主语-动词”“动词-宾语”语法关系的元素作为特征。  ⑷否定词:否定词会改变情感词的倾向性,因此可以通过设置滑动窗口看否定词否定的对象,并将其加入特征集。3.3支持向量机  支持向量机(简称SVM)在传统文本分类问题上是一种非常有效的方法,通过核函数将输入空间映射到一个高维空间,并找到一个具有最大分类间隔的最优分类超平面。本文使用LIBSVM(.csie.ntu.edu.t)进行SVM分

7、类器的训练和测试。4.实验结果及分析4.1实验数据  本文选取了亚马逊和京东商城两个电子商务X站的、数码相机和笔记本电脑三类电子产品的评论作为数据源,并对每类产品选择了等级为4、5的1000条评论作为正面评论、等级为1、2的1000条评论作为负面评论。4.2实验结果  本文选取了Unigrams、情感词、语法特征和否定词作为特征集,使用50%的数据作为训练集,剩余50%的数据作为测试集,表1给出了不同特征集在、数码相机、笔记本三类产品评论上的分类准确率。  表1不同特征集在三类产品评论上的分类准确率  从实验结果

8、可以看出:Unigrams加上情感词对分类准确率提升的效果不显著,其主要原因是Unigrams里面已经包含了大部分情感词;语法特征和否定词对于产品评论的情感分类都是非常有用的特征,可以提高分类准确率。使用SVM结合适当特征,可以在电子产品评论领域获得较好的情感分类效果。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。