热门微博话题事件主题聚类分析

热门微博话题事件主题聚类分析

ID:35090633

大小:6.19 MB

页数:69页

时间:2019-03-17

热门微博话题事件主题聚类分析_第1页
热门微博话题事件主题聚类分析_第2页
热门微博话题事件主题聚类分析_第3页
热门微博话题事件主题聚类分析_第4页
热门微博话题事件主题聚类分析_第5页
资源描述:

《热门微博话题事件主题聚类分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、?密级:保密期限;告镜冰爹硕±学位论文.,-.'热口微博话题事件主题聚类分析.八’,.TopicClusteiingAnalsisofPoularMicroBloEventIypg黎学号E13201078、姓名王军学位类别工学硕±计算机应用技术(工程领域)指导教师郑诚副教授完成时间2016年3月.答辩委员会f^主席签名I一..?:,.独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加W标注和致谢

2、的地方外,论文中不包含其他人&经发表或撰写过的研究成果,化不包含为获得安徽大学或其他教育机构的学位或证书而便用过的材料一。与我同王作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。、学位论文作者签名:*^^:签字日期文年月日/^_^学位论文版权使用授权书本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽大学可レ义将学位论文的全部或部分内容编入有关数据库进行检、崇,可采用影印缩印或担描等复制手段保存、汇瓣学位论文.(保密的学位论文在解密后适

3、用本授权书),学位论文作者签名:导师签名:盛^勒签字日期:如/^年:月{>日签字日期:年月日j;/?摘要>、报纸在当今的社会中,|^1互联网为载体,产生了与电视、广播等传统媒体近乎对等的网络媒体,送些新媒体经过不断地发展,拥有大量的用户基础,它们也成为了社会舆论非常重要的阵地之一、,典型的代表有网络视频网站微博、微信等。这些网络舆论阵地,表达的是群众的意志,是无数网民自由表达观点想法的平台。通过送璧平台,网民随时随地发表身边的新鲜事,或者发表对热口微博话题的看法和观点,而这些微博上的舆论信息能够很好的反映人们真实的想法,能够从中挖掘出许

4、多有价值的信息。因此对这些平台上的内容进巧研究,有着许。多重要的意义,比如舆情分析、新媒体营销、品牌维护等微博是基于关注关系形成的社交网络,用户可W发表少于140个字的文本,对别人的微博进斤点赞、评论、转发。随着近几年的发展,用户数快速増长,每天都会生成海量的数据。随着数据量的爆炸式増长,用户越来越感觉到,从这些一。数据中获取自己关也的有价值的信息越来越难第,微博内容五花八口,良蒸不齐,充斥着许多垃圾信息;第二,对于恃定事件,每个人看问题的角度或者目的不同一,渗杂的情感也不同,所W都会有些不同的看法;第H,随着事件讨论一些新的情况出现热度变化,或者,事件的舆论发

5、生改变,如何准确获取这些演变一,也是个值得研巧的问题。对微博的分析研巧,有助于我们发现其中蕴含的-舆论观点,感倩倾向,为决策和预测提供可靠而宝贵的信息支撑。本文从文本挖掘的基本概念开始,讨论了相关的算法和基本技术,文本的表示方法。LDA(LatentDirichletAllocation,潜,文本挖掘的相关理论接着详述了在狄利克雷分布)主题模型,包括模型的数学基础、评估、推断。本文的主要研究工作有:1.通过新词发现、词频TF和逆文档频率IDF进行词级特征选择,能够很好的挑选出良好的特征,剔除不良恃征;2.使用LDA主主题聚类主题的变化题模型对数据建模,然

6、后进行,分析,提出了主题词及其权重作为二元组的元素结合动态闲值进行新主题发现的方法;"一"3一.提出了篇短文本有且仅有个主要主题假设。基于这个假设,使用文I安徽大学硕±学位论文热口微博话题事件主题聚类分析一本主题分布中的主要主题作为分类决定因素,对文本进行分类,提出了种先主题聚类再文本分类的方法。实验中,,面向有关己黎恐怖袭击微博数据和百度知道数据采用本文提出的算法,对实验结果进行分析,W验证本文提出的方法。实验结果分析表明,本文的特征选择方法改进了LDA主题模型的建模效果;基于主题词及其权重的新主题发现算法能够很好的发现新主题一些热口子话,这些

7、新主题对应着话题下的题;基于主题聚类的文本分类方法,相比较传统的K均值方法效果上有所提升。文本挖掘;微博;LDA主题模型;主题演变nAbstractAbstractInmodemsociallife,asoneofthemostimportantcarriers,Internethasgeneratevarious0打li打emedia^su

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。