欢迎来到天天文库
浏览记录
ID:35090633
大小:6.19 MB
页数:69页
时间:2019-03-17
《热门微博话题事件主题聚类分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、?密级:保密期限;告镜冰爹硕±学位论文.,-.'热口微博话题事件主题聚类分析.八’,.TopicClusteiingAnalsisofPoularMicroBloEventIypg黎学号E13201078、姓名王军学位类别工学硕±计算机应用技术(工程领域)指导教师郑诚副教授完成时间2016年3月.答辩委员会f^主席签名I一..?:,.独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加W标注和致谢
2、的地方外,论文中不包含其他人&经发表或撰写过的研究成果,化不包含为获得安徽大学或其他教育机构的学位或证书而便用过的材料一。与我同王作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示谢意。、学位论文作者签名:*^^:签字日期文年月日/^_^学位论文版权使用授权书本学位论文作者完全了解安徽大学有关保留、使用学位论文的规定,有权保留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权安徽大学可レ义将学位论文的全部或部分内容编入有关数据库进行检、崇,可采用影印缩印或担描等复制手段保存、汇瓣学位论文.(保密的学位论文在解密后适
3、用本授权书),学位论文作者签名:导师签名:盛^勒签字日期:如/^年:月{>日签字日期:年月日j;/?摘要>、报纸在当今的社会中,|^1互联网为载体,产生了与电视、广播等传统媒体近乎对等的网络媒体,送些新媒体经过不断地发展,拥有大量的用户基础,它们也成为了社会舆论非常重要的阵地之一、,典型的代表有网络视频网站微博、微信等。这些网络舆论阵地,表达的是群众的意志,是无数网民自由表达观点想法的平台。通过送璧平台,网民随时随地发表身边的新鲜事,或者发表对热口微博话题的看法和观点,而这些微博上的舆论信息能够很好的反映人们真实的想法,能够从中挖掘出许
4、多有价值的信息。因此对这些平台上的内容进巧研究,有着许。多重要的意义,比如舆情分析、新媒体营销、品牌维护等微博是基于关注关系形成的社交网络,用户可W发表少于140个字的文本,对别人的微博进斤点赞、评论、转发。随着近几年的发展,用户数快速増长,每天都会生成海量的数据。随着数据量的爆炸式増长,用户越来越感觉到,从这些一。数据中获取自己关也的有价值的信息越来越难第,微博内容五花八口,良蒸不齐,充斥着许多垃圾信息;第二,对于恃定事件,每个人看问题的角度或者目的不同一,渗杂的情感也不同,所W都会有些不同的看法;第H,随着事件讨论一些新的情况出现热度变化,或者,事件的舆论发
5、生改变,如何准确获取这些演变一,也是个值得研巧的问题。对微博的分析研巧,有助于我们发现其中蕴含的-舆论观点,感倩倾向,为决策和预测提供可靠而宝贵的信息支撑。本文从文本挖掘的基本概念开始,讨论了相关的算法和基本技术,文本的表示方法。LDA(LatentDirichletAllocation,潜,文本挖掘的相关理论接着详述了在狄利克雷分布)主题模型,包括模型的数学基础、评估、推断。本文的主要研究工作有:1.通过新词发现、词频TF和逆文档频率IDF进行词级特征选择,能够很好的挑选出良好的特征,剔除不良恃征;2.使用LDA主主题聚类主题的变化题模型对数据建模,然
6、后进行,分析,提出了主题词及其权重作为二元组的元素结合动态闲值进行新主题发现的方法;"一"3一.提出了篇短文本有且仅有个主要主题假设。基于这个假设,使用文I安徽大学硕±学位论文热口微博话题事件主题聚类分析一本主题分布中的主要主题作为分类决定因素,对文本进行分类,提出了种先主题聚类再文本分类的方法。实验中,,面向有关己黎恐怖袭击微博数据和百度知道数据采用本文提出的算法,对实验结果进行分析,W验证本文提出的方法。实验结果分析表明,本文的特征选择方法改进了LDA主题模型的建模效果;基于主题词及其权重的新主题发现算法能够很好的发现新主题一些热口子话,这些
7、新主题对应着话题下的题;基于主题聚类的文本分类方法,相比较传统的K均值方法效果上有所提升。文本挖掘;微博;LDA主题模型;主题演变nAbstractAbstractInmodemsociallife,asoneofthemostimportantcarriers,Internethasgeneratevarious0打li打emedia^su
此文档下载收益归作者所有