欢迎来到天天文库
浏览记录
ID:37376211
大小:284.97 KB
页数:4页
时间:2019-05-22
《基于SVM的微博文本情感倾向性识别》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于SVM的微博文本情感倾向性识别韩忠明,张慧,解筱梦(单位北京工商大学计算机与信息工程学院北京100048)摘要:本文针对微博数据进行观点句判别及情感倾向性分类进行深入研究。本文以HowNet情感分析用词表作为基本词典,过滤其中的单字词语,并进行网络情感词补充等,构成一个情感词典。使用基于支持向量机(SVM)分类方法,优化情感特征项的选取,训练样本,对被测数据进行较为准确的预测。在第一届CCF自然语言处理与中文计算会议情感分析评测中,本文针对观点句判别及观点句情感倾向判定取得了较好的效果。关键词:支持向
2、量机;情感词典;特征选择;EffectiveSentimentClassificationMethodBasedonSVMforMicrobloggingTextsHanZhongming,ZhangHui,XieXiaomeng(SchoolofComputerScienceandInformationEngineering,BeijingTechnologyandBusinessUniversityBeijing100048)Abstract:Inthispaper,wefocusonsentimen
3、tclassificationmethodforMicrobloggingtexts,BasedonHowNetemotionallexicons,anemotionallexiconisconstructedafterunrelatedwordsarefiltered.WeproposeaoptimizationfeatureselectionmethodandthusclassifytextsusingSVMclassifier.Inemotionalevaluationcompetitionofth
4、efirstCCFConferenceonNaturalLanguageProcessing&ChineseComputing,proposedmethoddemonstratedgoodperformanceintermsofprecisionandrecall.Keywords:SVM,Emotionallexicons;Featuresection;用词典及程度,副词词典结合情感词极性值计算文档句0引言子情感值来获取文本的情感倾向性.考虑了语言风格及本文的目的在于提出一种优化的基于SVM方法判结构,
5、但是对于微博短文本,表达情感的句式结构非常别微博观点及判别微博情感倾向性的方法。本文借鉴一少,甚至没有,主要的一些词就可以表达情感。2011年般文本分类方法,进行算法的改进。构建微博情感词典,YueLu[2]等人提出一种学习不同来源数据,结合上下文对测试数据集进行预处理,噪声处理,优化选取特征项,自动构建情感词典的算法。YueLu等对于情感词典的构通过样本模型化处理,计算得出测试数据是否为观点句建进行了新的扩展及改进。及观点句的情感倾向分类。(2)基于机器学习的文本情感倾向性研究[4]文本倾向性分析技术不
6、仅可以应用于微博分析,对2011年,Dmitriy等人提出基于N-gram情感分类购物反馈,产品评论、网络舆情检测及垃圾消息过滤等方法。使用数据中的长短短语作为特征值对文本进行情领域也有着广泛的应用,通过判别文本的情感倾向可以感分类。此方法使一些具有情感意义的组合词,发挥他指导用户购买某种产品、监控网络舆情等,现有的中文们情感倾向的比重意义。但是,对于微博短文本,几个[5]倾向性分析主要研究定位于对句子或者段落等进行判字组成的情感表述,效果不明显。2010年,咎红英别。针对微博式短文本,产品评论,电影评论
7、,网络即等人将机器学习中的经典分类方法与规则方法相结合,时消息,论坛等的情感倾向性分析研究较少,本文以微用以分析新闻语音文本的情感倾向,判断其强弱。通过博为例进行分析。SVM分类器来研究特征选择方法及特征权重计算方法的组合对实验结果的影响。本文基于SVM分类方法,1相关工作针对微博数据特性进行特征选择及权重计算,进而判断文本情感倾向分析目的在于,判别自然语言中表达情感倾向分类。的情感倾向。许多文本情感分析主要针对中长文本,对2任务分析于微博这样的短文本处理方法较少。国内外对于文本情感倾向性的研究大体上分为
8、两大类:基于语义的文本情本文实验数据来源于第一届CCF自然语言处理与感倾向性研究和基于机器学习的文本情感倾向性研究。中文计算会议中文微博情感分析测评,测评对象是面向(1)基于语义的文本情感倾向性研究。中文微博的情感分析核心技术,包括观点句识别、情感[1]2011年,何凤英以HowNet情感词语集为基准,倾向性分析和情感要素抽取。本论文参与任务一,任务构建中文基础情感词典,计算并标注情感词的极性。利二的测评工作。2.1任务一观点
此文档下载收益归作者所有