资源描述:
《基于微博的热点话题发现研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、密级:公开论文类型:应用研究工程硕士学位论文基于微博的热点话题发现研究ResearchofHotTopicsDetectionBasedontheMiroBlog培养单位:信息科学与技术学院专业领域:计算机技术学生姓名:贺源校内导师:张翠肖教授校外导师:蒋学红高工二〇一六年六月独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得石家庄铁道大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研
2、究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签名:日期:摘要摘要随着互联网技术的快速发展和智能手机的迅速普及,微博客用户逐年增多,微博内容短小、发布方便快捷,人们对自己感兴趣的微博发表观点、进行评论,微博呈现井喷式的增长,一些社会热点问题会很快通过微博平台传递。微博逐渐成为网络舆情的主要传播途径之一。相对于新闻、网页等传统文本,微博更加口语化、碎片化。本文以微博数据为基础,研究微博热点话题发现方法,通过数据预处理、文本建模、话题聚类等过程,最后按照热度进行微博热点话题排序。主要研究内容包括:(1)采用新浪微博平台提供的API接口
3、获得初始数据,对获取到的JSON格式的微博数据进行解析,然后经过数据过滤、分词、去停用词等预处理操作,得到初始微博短文本语料库。(2)针对传统向量空间模型维数过高、没有考虑词语间语义关系等问题,提出了一种微博文本LSA建模方法,通过对特征词-文档向量空间矩阵进行奇异值分解,得到其近似矩阵,一方面保留了词语之间的语义关系,另一方面降低了数据的维度;将高维的向量空间映射到低维的语义空间,并利用采集到的微博数据进行了实例验证。(3)在深入研究经典聚类算法的基础上,针对微博数据,提出了一种将划分聚类和增量聚类相结合的两阶段聚类算法,在第一阶段,针对
4、传统K-means聚类算法的初始质心随机选择的问题,对其进行了改进,利用改进的K-means算法实现一次聚类;在第二阶段,对新的数据采用增量聚类的方法进行二次聚类,并进行了实验对比分析。(4)根据评论数和转发数定义话题的热度,进行话题排序,通过与官方公布的热点话题进行对比,验证了本文方法的有效性。关键词:微博API;数据解析;LSA;K-means聚类算法AbstractAbstractWiththerapiddevelopmentofInternettechnologyandtherapidpopularityofsmartphones,
5、MicroBlogusershasincreasedeveryyear,MicroBlogcontentshort,convenientandquickrelease.PeopleareinterestedintheirownMicroBlogtoexpresstheirviewsandmakecomments,MicroBlogshowinggrowthspurt,someofthehotsocialissueswillsoonspreadthroughtheMicroBlogplatform.MicroBloghasgraduallyb
6、ecomeoneofthemainrouteoftransmissionnetworkpublicopinion.Withrespecttonews,webpagesandothertraditionaltexts,MicroBlogmorecolloquial,fragmented.Inthisthesis,basedondatafromMicroBlog,ResearchonMicroBloghottopicdiscoverythroughdatapreprocessing,textmodeling,topicclusteringand
7、otherprocesses.Finally,MicroBloghottopicwillbesortedinaccordancewiththeheat.Themaincontentsinclude:(1)UsingAPIinterfaceinSinaMicroBlogplatformtoobtaintheinitialdata.Afterwards,TheacquisitionofJSONformatMicroblogdatawillbeparsed,Subsequentlyconductdatafiltering,segmentation
8、,stopwordsandotherpre-processingoperation,obtaininitialMicroBlogtextcorpus.(2)Inconnectio