一种面向大规模微博数据的话题挖掘方法

一种面向大规模微博数据的话题挖掘方法

ID:5998133

大小:1.26 MB

页数:7页

时间:2017-12-30

一种面向大规模微博数据的话题挖掘方法_第1页
一种面向大规模微博数据的话题挖掘方法_第2页
一种面向大规模微博数据的话题挖掘方法_第3页
一种面向大规模微博数据的话题挖掘方法_第4页
一种面向大规模微博数据的话题挖掘方法_第5页
资源描述:

《一种面向大规模微博数据的话题挖掘方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、322014,50(22)ComputerEngineeringandApplications计算机工程与应用一种面向大规模微博数据的话题挖掘方法1,21,211王文帅,杜然,程耀东,陈刚1,21,211WANGWenshuai,DURan,CHENGYaodong,CHENGang1.中国科学院高能物理研究所计算中心,北京1000492.中国科学院大学,北京1000491.ComputingCenter,InstituteofHighEnergyPhysics,ChineseAcademyofSciences,Beijing100049,Chi

2、na2.UniversityofChineseAcademyofSciences,Beijing100049,ChinaWANGWenshuai,DURan,CHENGYaodong,etal.Topicminingmethodonmassivemicroblogdata.ComputerEngineeringandApplications,2014,50(22):32-37.Abstract:Withthedailypopularityofmicroblog,SinaWeibohasbecomeoneoftheimportantpublicac

3、cesstoanddis-seminationofinformationplatform,microblogtopicmininghasbecomeacurrentresearchfocuses.ThispaperproposesatopicminingmethodonmassiveSocialNetworkdata.Thispaperanalyzesthelarge-scalemicroblogdata,usesBloomFilteralgorithmtoeliminatetheduplicatedata.Inviewofthespecials

4、tructureofmicroblog,filterthetext.SNLDA,animprovedLDAtopicmodelisproposedinthispaper,Gibbssamplingischosentodeducethemodel,whichcanminethemicroblogtopics.Theexperimentalresultsshowthatthemethodcaneffectivelyexcavatethetopicsfromthelarge-scalemicroblogdata.Keywords:microblog;B

5、loomFilter;SocialNetworkLDA(SNLDA);topicmining摘要:随着微博的日趋流行,新浪微博已成为公众获取和传播信息的重要平台之一,针对微博数据的话题挖掘也成为当前的研究热点。提出一个面向大规模微博数据的话题挖掘方法。首先对大规模微博数据进行分析,基于BloomFilter算法对数据进行去重处理,针对微博的特有结构,对文本进行预处理,提出改进的LDA主题模型So-cialNetworkLDA(SNLDA),采用吉布斯采样法进行模型推导,挖掘出微博话题。实验结果表明,方法能有效地从大规模微博数据中挖掘出话题信息。关

6、键词:微博;BloomFilter;社会网络主题模型分析(SNLDA);话题挖掘文献标志码:A中图分类号:TP393doi:10.3778/j.issn.1002-8331.1404-00421引言户数就已达到5亿以上,2013年第四季度微博日均活跃近年来社交网站在国内外得到迅猛发展,微博逐渐用户为6140万。在庞大的微博用户中存在一定数量的融入人们的日常生活,微博作为信息发布和传播的平“网络水军”使微博数据充斥着一些重复的垃圾数据,从台,得到越来越多机构的关注。与传统新闻媒体相比,海量的微博信息中挖掘出有效的话题信息显得尤为重要。微博的信息提供

7、者更广泛,更新速度和传播速度更快,内容涵盖主题更加宽泛。微博话题发现对行业调研、舆2相关工作情监管都有十分重要的作用,这使得微博话题的挖掘成2.1传统的话题挖掘模型为当前的一个研究热点。早期的话题挖掘方法使用的是向量空间模型(Vector[1]据新浪公开数据,截至2012年底,新浪微博注册用SpaceModel,VSM)由Salton等人在20世纪70年代提基金项目:国家自然科学基金(No.11205179,No.11305196);国家高技术研究发展计划(863)(No.2014AA015205)。作者简介:王文帅(1982—),男,博士研究生

8、,工程师,研究领域为数据挖掘,数据库技术;杜然,女,博士研究生;程耀东,男,博士,副研究员;陈刚(1961—),男,博士,研究员,博士生

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。