基于Word2Vec新词识别的评论情感分析系统的研究与实现.pdf

基于Word2Vec新词识别的评论情感分析系统的研究与实现.pdf

ID:35007932

大小:2.86 MB

页数:82页

时间:2019-03-16

基于Word2Vec新词识别的评论情感分析系统的研究与实现.pdf_第1页
基于Word2Vec新词识别的评论情感分析系统的研究与实现.pdf_第2页
基于Word2Vec新词识别的评论情感分析系统的研究与实现.pdf_第3页
基于Word2Vec新词识别的评论情感分析系统的研究与实现.pdf_第4页
基于Word2Vec新词识别的评论情感分析系统的研究与实现.pdf_第5页
资源描述:

《基于Word2Vec新词识别的评论情感分析系统的研究与实现.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、EquationChapter(Next)Section1EquationChapter(Next)Section1硕士学位论文基于Word2Vec新词识别的评论情感分析系统的研究与实现RESEARCHANDIMPLEMENTATIONOFCOMMENTARYSENTIMENTANALYSISSYSTEMBASEDONWORD2VECNEWWORDRDCOGNITION王云龙哈尔滨工业大学2018年6月国内图书分类号:TP391学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文基于Word2Vec新

2、词识别的评论情感分析系统的研究与实现硕士研究生:王云龙导师:李东教授申请学位:工程硕士学科:计算机技术所在单位:计算机科学与技术学院答辩日期:2018年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391U.D.C:621.3DissertationfortheMasterDegreeinEngineeringRESEARCHANDIMPLEMENTATIONOFCOMMENTARYSENTIMENTANALYSISSYSTEMBASEDONWORD2VECNEWWORDRDCOGNITIONCan

3、didate:WangYunlongSupervisor:Prof.LiDongAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2018Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要随着互联网

4、和社交网络的迅速发展,情感倾向分析成为信息内容管理的重要研究内容。以往情感分析的研究及实现主要采用样本监督学习和使用情感词典这两种方式,但都存在不足之处:(1)采用样本监督学习方法对于样本的质量非常敏感,需要海量优质的训练样本,并且对于不同话题、领域的文本进行情感分析需要不同的模型数据,在实际使用中存在很大限制。(2)采用情感词典进行分析,由于网络新词的井喷式涌现造成词典的滞后以及词典本身的质量等问题,使得情感词典无法匹配到有效的情感词,造成分析失败。除了上述问题,对新的情感词的识别和词典的扩展主要依靠Word2vec进

5、行词向量化和语义相似度计算。但由于情感相反的词语往往拥有相近似的上下文,这使得Word2vec无法区分正反义词,从而造成情感词语分类错误,严重影响词典质量。本文针对使用情感词典进行情感分析的不足进行改进,研究了新词识别技术以及句子级情感分析技术,并实现了将情感词典自动扩充技术和句子情感分析技术相结合的系统。本论文主要完成的工作包括:(1)结合正反义词知识库训练Word2vec模型的算法,研究并实现了情感新词识别和词典扩充引擎,重点解决了情感相反的词语在词向量表示时的区分问题。(2)提出了新的情感词作用窗口划分规则,并据此

6、设计并实现了针对中文句式的句子级情感分析系统。(3)实现对基础数据的采集。主要是腾讯新闻及评论数据(最近半年)。以及同义词-反义词数据,来源于词林网,约97w条。(4)基于SSH框架设计并实现了一个对网络爬虫、情感词典扩充和情感分析系统进行任务管理与结果分析的交互网站。对本系统情感新词识别模块在腾讯新闻的数据集上进行验证,相较于原始Word2vec模型在情感新词的识别上,融合词向量模型的错误率平均下降了80%以上,有效的提升了情感词典自动扩充的质量。针对新闻评论的情感分析准确率最高可达92.3%。关键词:社交网络;情感分

7、析;Word2vec;新词识别;词典扩充哈尔滨工业大学工程硕士学位论文AbstractWiththerapiddevelopmentoftheInternetandsocialnetworks,emotionaltendencyanalysishasbecomeanimportantresearchcontentofinformationcontentmanagement.Inthepast,theresearchandimplementationofsentimentanalysismainlyusedsamplesu

8、pervisedlearningandtheuseofsentimentaldictionaries.However,therearebothshortcomings:1.Theuseofsamplesupervisedlearningmethodsisverysensitivetothequalityofthesa

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。