面向舆情监控的微博热点话题发现及演化分析研究

面向舆情监控的微博热点话题发现及演化分析研究

ID:34802082

大小:1.93 MB

页数:66页

时间:2019-03-11

面向舆情监控的微博热点话题发现及演化分析研究_第1页
面向舆情监控的微博热点话题发现及演化分析研究_第2页
面向舆情监控的微博热点话题发现及演化分析研究_第3页
面向舆情监控的微博热点话题发现及演化分析研究_第4页
面向舆情监控的微博热点话题发现及演化分析研究_第5页
资源描述:

《面向舆情监控的微博热点话题发现及演化分析研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、分类号:学校代码:10128UDC:学号:20151800069硕士学位论文(学生类别:全日制专业型硕士研究生学位类别:工程硕士领域名称:软件工程论文题目:面向舆情监控的微博热点话题发现及演化分析研究英文题目:ResearchonMicroblogHotTopicDiscoveryandEvolutionAnalysisforPublicOpinionMonitoring学生姓名:党燕导师姓名:刘利民教授巩韶飞高级工程师许志伟讲师二○一八年六月内蒙古工业大学硕士学位论文摘要微博作为当前盛行的社交工具之一,伴随着网民生活,深受网民喜

2、爱,微博具有发布内容短、操作简单、传播及时、言论自由等特点,这使得网民可以随心所欲地发表个人观点、获取各类信息、转发与评论他人信息。随着网民规模的不断扩大,微博工具频繁地被使用,导致聚焦在微博平台的数据呈爆炸式增长,这些数据的格式和内容可能非常散乱,噪音数据较多,如果仅靠人工筛选,不仅会增加工作量,而且很难快速发现热点话题。那么,基于现有的热点话题发现技术,传统大多数学者采用基于向量空间模型的文本聚类算法,在处理长文本数据时已取得了较好的结果,但是在处理微博短文本内容时,由于微博内容短、特征词少,仅凭词语字面意思判断文本相似度,会

3、影响话题发现准确性。基于此,本文要完成的研究工作如下:本文采用LDA(LatentDirichletAllocation)模型发现不同时间的微博热点话题,通过与传统的K-means算法进行实验对比,验证该模型话题发现的准确性。同时,在微博话题发现的过程中,需人工设置不同时间的话题数目,本文采用中国餐馆过程(ChineseRestaurantProcess),动态确定微博话题数,避免手工参与话题数设置问题。网络中的数据时刻在更新,不可能一次性获得全部数据,如果数据每更新一次都要进行重复学习,不仅会消耗大量的时间,而且不能及时追踪话题

4、。话题存在演变特性,不同阶段讨论的话题有不同的侧重点,为了及时捕获话题的演变情况,本文在热点话题发现的基础上,构建一种动态增量式话题演化模型,将数据集按照时间划分为历史数据集与增量数据集,使用历史数据集的微博热点话题发现结果推断新增微博数据集的微博话题分布,完成话题内容的追踪。通过实验分析,该模型能够直观地展示出话题内容的演变情况,并且节省了时间。本文设计并实现微博热点话题发现及演化分析系统。该系统包括数据预处理、话题发现、话题演化分析与个人信息维护模块,基于实际数据进行了系统测试,并进行各模块的功能展示,验证了以上工作的可行性及

5、有效性。关键词:热点话题发现;LDA模型;话题演化;中国餐馆过程I内蒙古工业大学硕士学位论文AbstractAsoneofthepopularsocialtools,WeiboisdeeplylovedbyInternetusers.Weibohasfeaturessuchasshortcontent,simpleoperation,spreadtimely,andfreedomofspeech,whichallowsnetizenstoexpresstheiropinions,obtainallkindsofinformatio

6、nwhattheywant,forwardandcommentonothers'information.WiththecontinuousexpansionofthenumberofInternetusers,microbloggingtoolsareusedfrequently,resultinginexplosivegrowthofdatafocusedonthemicrobloggingplatform.Theformatandcontentofthesedatamaybeveryscattered,ifselectedby

7、hand,itwillnotonlyincreasetheworkload,butitisdifficulttofindhottopicsquickly.Basedontheexistinghottopicsdiscoverytechnology,mostofthetraditionalscholarsoftenusealgorithmabouttextclusteringrelyingonthevectorspacemodel,andhaveachievedgoodresultswhenprocessinglongtextdat

8、a,butwhendealingwiththeshorttextcontentsuchasmicroblogs,whichareshortandwithfewfeaturewords,simplyjudgingthesimilaritybythem

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。