面向中文微博情感分析的多特征融合方法研究

面向中文微博情感分析的多特征融合方法研究

ID:34917301

大小:1.47 MB

页数:66页

时间:2019-03-14

面向中文微博情感分析的多特征融合方法研究_第1页
面向中文微博情感分析的多特征融合方法研究_第2页
面向中文微博情感分析的多特征融合方法研究_第3页
面向中文微博情感分析的多特征融合方法研究_第4页
面向中文微博情感分析的多特征融合方法研究_第5页
资源描述:

《面向中文微博情感分析的多特征融合方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、广东工业大学硕士学位论文(工学硕士)面向中文微博情感分析的多特征融合方法研究宋沛玉二〇一八年五月分类号:学校代号:11845UDC:密级:学号:2111504080广东工业大学硕士学位论文(工学硕士)面向中文微博情感分析的多特征融合方法研究宋沛玉指导教师姓名、职称:邢延副教授企业教师姓名、职称:无专业或领域名称:控制科学与工程学生所属学院:自动化学院论文答辩日期:2018年5月30日ADissertationSubmittedtoGuangdongUniversityofTechnologyfortheDegreeofMaster(

2、MasterofEngineeringScience)TheresearchonMulti-featureFusionMethodforSentimentAnalysisofChineseMicrobloggingMasterCandidate:SongPeiYuSupervisor:AssociateProf.XingYanMay2018FacultyofAutomationGuangdongUniversityofTechnologyGuangzhou,Guangdong,P.R.China,510006摘要摘要近年来,随着微博

3、注册用户的快速增长,微博平台累积的用户数据成几何倍增加,怎样有效的利用这些海量的数据,发掘数据中有价值的信息,成为了领域内的研宄热点。其中,微博情感分析是一个比较热门的研究方向,它在舆情监控、热点追踪,以及用户满意度调查等方面都有广泛的应用。但由于微博文本相较传统的长文本来说信息量少、格式不规范、口语话严重、含有大量的噪声等特点,微博情感分类研究的效果并不理想。除此之外由于中文语言的特殊性,对中文微博的情感分析准确率更是不能让人满意。针对这一情况,本文提出了融合多种特征进行中文微博情感分析的方法,提取了基于情感词典的分值特征,基于机

4、器学习的概率特征,以及基于深度学习的词向量特征融合进行情感分析,提高了情感分析的效果,主要工作包括以下几方面:1.研究了基于情感词典特征和机器学习特征的两类情感分析方法的基本原理和算法,并且比较了它们各自的优劣。2.设计了基于SO-PMI(SemanticOrientation-PointwiseMutualInformation)算法和情感符号词典扩充情感词典的方法,并使用扩充后的词典结合规则模板抽取了每条文本的情感分值特征。实验结果表明,使用新的情感分值特征分类效果比传统的情感词典特征效果更好。3.设计了新的基于机器学习的微博文

5、本特征抽取方法,借鉴集成学习的思想,集成朴素贝叶斯,逻辑回归,支持向量机以及最近邻分类器的概率输出结果,共同构建特征向量作为特征。实验结果表明,使用新的基于机器学习的概率特征进行情感分析效果更好,特征的表征能力更强。4.训练Word2vec模型,并使用模型对每条微博抽取了包含上下文语义的词向量特征作为补充特征,同时融合情感分值特征和机器学习概率特征进行情感分类实验。实验表明本文提出的融合多种特征进行情感分析的方法能够实现特征互补,达到更好的情感分类效果。关键词:情感分析;机器学习;特征融合;情感词典;词向量I广东工业大学硕士学位论文

6、AbstractInrecentyears,withtherapidgrowthofmicrobloggingregisteredusers,theuserdataaccumulatedbythemicrobloggingplatformhasincreasedgeometrically.Microbloggingsentimentanalysisisahotresearcharea,whichinvestigatesintoeffectivelydicovervaluableinformationfromthesemassdata

7、.Microbloggingsentimentanalysishasbeenwidelyappliedinthefieldofpublicopinionmonitoring,hotspottracking,andusersatisfactionsurvey.However,duetothefactthatthemicroblogtexthaslessinformation,theformatisnotstandardized,thespokenlanguageisserious,anditcontainsalargeamountof

8、noisecomparedwiththetraditionallongtext,theperformancesofthemicroblogemotionclassificationmethodsarelessthansatisfact

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。