欢迎来到天天文库
浏览记录
ID:35078121
大小:4.08 MB
页数:63页
时间:2019-03-17
《微博舆情分析技术研究及系统实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、——'—'..--,..-.*■>'-一?^.J^為《為辦蛛矣?^度GuangDongPolytechnicNormalUniversity硕±学位论文微博舆情分析技术研究及系统实现ResearchandSs化mImlemeMationofTechnoloonMicrobloypgygPublicOpinionAnalysis作者林鉴周;产片.:导师姓名职称寅西平副教授方刚教授学科专业名称系统理论>I、.所在学院计算化科学学院电;'
2、i学生类别全日制回在职□论文提交日期2016年6月 ̄'--■■i’?一&V:、丄.'--'一\■..。■韦V-.-;;:入-4'..一-一..‘一-.-‘寸.**1'...、'一主-.v■r;、..-、.....■■..1-.-,.r'.?ResearchandSystemImplementationofTechnologyonMicroblogPublicOpinionAnalysisByLinJianzhouADi
3、ssertationSubmittedtoGuangDongPolytechnicNormalUniversityInpartialfulfillmentoftherequirementFortheMasterdegreeMay,2016中图分类号TP391.1学校代码10588UDC658.5密级公开硕士学位论文微博舆情分析技术研究及系统实现ResearchandSystemImplementationofTechnologyonMicroblogPublicOpinionAnalysis贾西平副教授作者林鉴周导师姓名职称方刚教授申请学位理学硕士所在学
4、院计算机科学学院学科专业名称系统理论研究方向信息系统工程答辩委员会主席凌捷评阅人2016年06月摘要随着互联网技术的迅猛发展,微博成为人们接收和发布信息的重要工具和平台。然而,微博文本存在着语法不规范、口语化、网络流行语泛滥、大部分微博文本短小、关键信息含量低等问题,这使得微博舆情分析面临着一定的困难和挑战:(1)微博文本短小,特征词数量少,语义难以识别和表示。(2)基于特征词向量的微博表示方法存在维度高和数据稀疏问题;(3)受语义表示方法局限,微博舆情分析软件智能化程度低;针对当前微博舆情分析中存在的上述问题,提出一种基于主题的微博舆情分析解决方案,并
5、实现一个微博舆情分析原型系统。主要工作包括:(1)提出一种微博敏感舆情分析方法。借助LDA模型学习微博主题,在新特征词空间上构造微博主题向量和敏感主题向量,通过计算主题相似度识别微博敏感主题。实验结果表明,该方法能较好地识别微博敏感主题。(2)提出一种微博热点舆情分析方法。借助LDA模型学习微博主题,通过度量微博主题在文本集不同文档中出现的频繁程度,识别微博热点舆情。实验结果表明,该方法是可行的。(3)设计并实现了一个基于主题的微博舆情分析原型系统,实现了微博数据预处理、主题学习、敏感主题分析、热点主题分析等主要功能。关键词:微博;舆情;LDA模型;敏感
6、主题;热点主题分类号:TP391.1IAbstractWiththerapiddevelopmentoftheInternettechnology,microbloghasbecomeanimportanttoolandplatformforpeopletoreceiveanddelivermessage.However,microblogtextexiststheseproblems,suchasirregulargrammar,colloquiallanguageandnetworkbuzzwords.Moreover,mostmicroblogte
7、xtisshortandcontainslittlekeyinformation,whichenablemicroblogpublicopinionanalysisfacecertaindifficultyandchallenge.(1)microblogtextisshort,featurewordsareless,anditishardtoidentifyandexpressthesemantics.(2)Basedontheexpressivemethodsoffeaturewordvector,itexiststheproblemsofhighd
8、imensionanddatasparseness.(3)Limitedbyth
此文档下载收益归作者所有