基于英文博客文本的情感分析研究

基于英文博客文本的情感分析研究

ID:39260424

大小:326.38 KB

页数:5页

时间:2019-06-29

基于英文博客文本的情感分析研究_第1页
基于英文博客文本的情感分析研究_第2页
基于英文博客文本的情感分析研究_第3页
基于英文博客文本的情感分析研究_第4页
基于英文博客文本的情感分析研究_第5页
资源描述:

《基于英文博客文本的情感分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第21卷第8期计算机技术与发展Vol.21No.82011年8月COMPUTERTECHNOLOGYANDDEVELOPMENTAug.2011基于英文博客文本的情感分析研究汪正中,张洪渊(温州大学,浙江温州325035)摘要:随着互联网的迅猛发展,对网络文本带有观点性内容的主观性信息的自动情感分析成为了近期Web信息处理的一个新兴研究热点。文中对英文博客文本的情感分析进行了研究。提出了以词为单位进行特征的选取,并在文本的情感分析中加入了预处理过程。使用机器学习的方法,采用电影评审文本作为语料库,选取在英文文本分类领域较好的支持2向量机作为训练

2、器,特征的选取分别采用信息增益、互信息和χ统计的方法。实验结果表明,该方法获得了较满意的结果,与传统的基于N-Gram特征选取方法及基于无监督学习的方法相比,该方法较之都有所提高。关键词:博客;文本情感分析;预处理;特征选择;支持向量机中图分类号:TP393.4文献标识码:A文章编号:1673-629X(2011)08-0153-04ResearchofSentimentAnalysisonEnglishBlogTextWANGZheng-zhong,ZHANGHong-yuan(WenzhouUniversity,Wenzhou325035,

3、China)Abstract:WiththerapiddevelopmentofInternet,theautomaticsentimentanalysisforsubjectivitytextbecomerecentresearchhotspots.StudythesentimentanalysisforEnglishweblogtext.Itusedthewordastheunitforfeatureselectionandaddthepretreatmentintextsentimentanalysisprocess.Appliedthe

4、machinelearningmethodtomoviereviewtextsentimentanalysis,selectedthesupportvectorma-chinetoconstructtheclassifier,usedthreefeatureselectionmethods:informationgain,mutualinformationandchi-squarestatistic.Theresultsindicatethatobtainsatisfactoryeffect,comparedwiththetraditional

5、methodbasedN-Gramandtheunsupervisedlearningapproa-ches,itsresultshaveimproved.Keywords:weblog;textsentimentanalysis;pretreatment;featureselection;supportvectormachine0引言正面类别(Positive)和负面类别(Negative)。随着Web2.0的普及与发展,博客作为其典型的代表获得了广泛的应用。由于用户更多地参与到信息1研究概述的产生,越来越多的具有个人观点性的内容出现博客、目

6、前比较公认的文本情感分析比较系统的研究工[1]论坛等网络媒体上,这些在线表述的观点性内容对于作开始于Pang等人采用基于监督学习方法对电影[2]电子商务、网络舆情分析、信息检索等方面都具有重要评论文本进行情感倾向性分类和Turney等人采用的意义和实用价值。对网络文本带有观点性内容的自的基于无监督学习对文本情感倾向性分类的研究。动情感分析成为了近期Web信息处理的一个新兴的Pang等人于2002年首先在情感分析领域引入了机器研究热点,其中的核心技术内容便是文本的情感分析。学习的方法,利用朴素贝叶斯(NaiveBayes)、最大熵文本的情感分析,

7、就是对Web上的、由用户主动发布(MaxEntropy)、支持向量机(SVM)等在文档级别上对[3]的、带有情感色彩的主观性文本信息进行有效的分析整个文本进行自动的情感分类。Dave等人于2003和挖掘,识别出其所表达内容的情感倾向。所谓的情年采用词的倾向来代表文章的倾向,给出了一个用于感倾向就是指文本内容所反映的正面或负面的倾向评审意见分类的通用评分函数,他们的方法同时考虑性,目前已有的研究通常将文本情感倾向分成两类,即了词的倾向强度。文献[4]通过机器学习和图中最小割的方法对文本中的句子进行主观性判断。Kim和[5]Hovy等人在2004年

8、提出了基于同义词典WordNet收稿日期:2011-01-19;修回日期:2011-04-22基金项目:浙江省自然科学基金项目(Y1080112)的方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。