基于聚类算法的微博影响力评价模型-研究和实现

基于聚类算法的微博影响力评价模型-研究和实现

ID:34594112

大小:2.71 MB

页数:66页

时间:2019-03-08

基于聚类算法的微博影响力评价模型-研究和实现_第1页
基于聚类算法的微博影响力评价模型-研究和实现_第2页
基于聚类算法的微博影响力评价模型-研究和实现_第3页
基于聚类算法的微博影响力评价模型-研究和实现_第4页
基于聚类算法的微博影响力评价模型-研究和实现_第5页
资源描述:

《基于聚类算法的微博影响力评价模型-研究和实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、摘要摘要微博作为新网络时代的社交工具,以其使用的便利性与发布信息的实时性迅速风靡世界。微博影响力是用户实际社交影响力的体现,对微博影响力进行准确评价不仅可以帮助用户找到有价值的信息而且还能为微博的进一步扩展应用提供基础。但现有微博影响力评价模型普遍存在以下不足之处:(1)实验数据量较小,缺乏说服力;(2)受僵尸粉影响严重;(3)无法结合用户给出的关键词;(4)算法效率较低。本文对上述微博影响力评价模型存在的问题进行了研究,主要工作如下:(1)改进新浪微博数据的抓取方式,扩大了实验数据量。新浪微博提供了API(应用程序编程接口)供开发者抓取数据,但限制了API的调用频率。通过使用

2、多应用与多代理IP技术改进现有的基于微博API的数据抓取方式,使数据抓取量由每小时150次增加到每小时6000次。并抓取到了100万个微博用户,提高了微博影响力评价模型实验的数据量,保证了其准确性。(2)提出一种判别和排除微博僵尸粉的方法,降低僵尸粉对微博影响力评价的影响。针对微博用户量庞大的特点,详细分析了最新的微博僵尸粉与普通用户的不同特征,提出了一种基于模拟退火的BP神经网络算法SAVBP,并实现了一个基于SAVBP神经网络的僵尸粉分类系统。使用新浪微博数据对系统进行评估,结果显示该系统对微博僵尸粉判别准确率与判别召回率均有提高。(3)提出一种基于聚类算法的微博影响力评价

3、模型。首先对数据进行预处理,排除数据中的微博僵尸粉,再通过微博用户粉丝与关注的链接关系将微博建立成一个复杂网络,并使用改进的Girvan-Newman算法对网络进行聚类,分解出其中的团簇结构,并提出针对各团簇的基于用户关键词的影响力评价方法CRank。使用新浪微博数据对模型进行评估,结果显示,该模型具有较好的收敛性,计算效率要优于传统基于PageRank算法的微博影响力评价模型。(4)设计并实现了一个基于聚类算法的微博影响力评价模型系统。针对微博影响力评价模型没有统一评价标准的问题,提出把用户满意度作为微博影响力评价模型的评价标准。与现有的基于PageRank算法和基于Hits

4、算法的微博影响力评价模型相比,结果显示本文提出的基于聚类算法的微博影响力评价模型具有较高的系统实时性与用户满意度。随着微博的快速发展,微博影响力的评价将变得越来越重要,本文提出的微博影响力评价模型为微博的进一步扩展应用提供了一定的基础。关键词:微博;僵尸粉;影响力评价模型;复杂网络;聚类I万方数据重庆理工大学硕士学位论文II万方数据AbstractAbstractMicroblogisanewsocialnetworkingtool,whichsweepsaroundtheworldrapidlybecauseofusingconvenientlyandpostingmessa

5、gereal-time.Micro-bloginfluencereflectstheuser'sactualsocialinfluence.Evaluatingofmicro-bloginfluenceaccuratelynotonlycanhelpusersfindvaluableinformation,butalsoprovidesfurtherexpandingapplicationsformicro-blog.However,theexistingmodelsofmicro-bloginfluenceevaluationhassomedisadvantages:firs

6、tly,alittleexperimentdatalackofconvincing;secondly,affectedseriouslybyzombiefans;thirdly,can’tcombinewiththeusers’keywords;fourthly,lowalgorithmefficiency.Orderingtosolvetheexistingproblemsofmicro-bloginfluenceevaluationmodels,thispaperstudiedthefollowingwork:Firstly,improvedthewayofcapturin

7、gdatafromSinamicro-blog,andincreasedtheamountofexperimentaldata.Sinamicro-blogprovidestheAPIfordeveloperstocapturedata,butlimitstheAPI’scallsfrequency.Throughusingmulti-applicationandmulti-agentIPtechnologytoimprovethemethodoffetchingdatafrommicro-

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。