欢迎来到天天文库
浏览记录
ID:34158714
大小:2.65 MB
页数:58页
时间:2019-03-04
《中文微博情感倾向性分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文中文微博情感倾向性分析研究RESEARCHONSENTIMENTANALYSISFORCHINESEMICROBLOG朱玺哈尔滨工业大学2015年6月国内图书分类号:TP391.1学校代码:10213国际图书分类号:621.3密级:公开工程硕士学位论文中文微博情感倾向性分析研究硕士研究生:朱玺导师:关毅教授申请学位:工程硕士学科:计算机科学与技术所在单位:计算机科学与技术学院答辩日期:2015年6月授予学位单位:哈尔滨工业大学ClassifiedIndex:TP391.1U.D.C:621.3DissertationfortheMasterDegreei
2、nEngineeringRESEARCHONSENTIMENTANALYSISFORCHINESEMICROBLOGCandidate:Zhu,XiSupervisor:Prof.Guan,YiAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerScienceandTechnologyAffiliation:SchoolofComputerScienceandTechnologyDateofDefence:June,2015Degree-Conferring-Institution:Harbi
3、nInstituteofTechnology哈尔滨工业大学工程硕士学位论文摘要情感倾向性分析是通过研究文本中人们的情感,观点,看法等内容,来确定文本中所包含的情感与态度等主观信息。情感倾向性分析经历了最近10年的快速迅猛发展,现在已经成为一个热门研究方向,并产生了巨大的商业和社会价值。近年来,随着微博的流行,情感倾向性分析研究也在逐渐关注微博文本这一充满潜力的新兴领域,已经有学者做出许多探索,但是至今为止仍然存在着许多待解决的问题,如海量中文数据难以有效标注,微博语料主客观情感严重失衡,现有机器学习方法容易造成过度训练,中文情感对象领域知识缺少有效利用等等。针对这些
4、已有的问题,本文使用了主动学习和马尔科夫逻辑网算法,对中文微博情感倾向性分析研究进行了进一步的探索,降低了这些问题对中文微博情感倾向性分析研究产生的影响,使试验结果取得了显著的提升。根据中文微博数据量巨大但是难于标注,训练文本稀缺的特点,本文引入了主动学习算法。主动学习算法可以通过利用大量未标注语料信息来扩大训练语料的规模,解决中文微博难于标注的问题。同时,本文在主动学习算法中使用了适用于微博特点的特征抽取方法以及训练度阈值优化,迭代权重优化和不平衡语料优化方法,对微博语料主客观情感严重失衡和过度训练等问题的解决产生了帮助,提升了情感倾向性分析的精准度。本文在实验中
5、具体论证了主动学习算法以及其各个优化方法的有效性。中文微博同时还含有大量情感对象领域知识,如何有效利用这些知识对中文微博的情感倾向性分析产生帮助也是一个值得研究的课题。本文通过使用马尔科夫逻辑网算法,在传统机器学习的基础上,利用马尔科夫逻辑网算法通过使用一阶逻辑的规则描述,引入了微博情感对象领域知识,优化了情感倾向性分析的结果,并在实验中通过与传统机器学习算法进行比较体现了其引入新知识的有效性。在进行中文微博情感倾向性研究的过程中,发现当前做监督机器学习研究缺少一个统一的平台,控制流程的大量重复工作占用了宝贵的研究时间。为了高效完成中文微博的情感倾向性分析,并为以后
6、更多的机器学习任务服务,本文设计并完成了一个高效实用的通用化监督学习平台,可以统一机器学习中的公共流程,实现对算法的高效试验和评估工作。本文中主动学习算法和马尔科夫逻辑网算法上的探索和实验均在此监督机器学习平台中完成,节省了大量重复工作所花费的时间,大幅提升了算法研究的效率。关键词情感倾向性分析;中文微博;主动学习;马尔科夫逻辑网-I-哈尔滨工业大学工程硕士学位论文AbstractSentimentanalysisreferstotheuseofnaturallanguageprocessing,textanalysisandcomputationallinguis
7、ticstoidentifyandextractsubjectiveinformationinsourcematerials.Aftertherapiddevelopmentinthesetenyears,ithasbeenahotresearchdirectionandhasproducedlotsofcommercialvalueandsocialvalue.Microblogisalsogrowingrapidlyintheseyears.Sentimentanalysisresearchpaidacloseattentiontothisnewpotent
此文档下载收益归作者所有