社交网站热点话题发现

社交网站热点话题发现

ID:13843586

大小:3.16 MB

页数:29页

时间:2018-07-24

社交网站热点话题发现_第1页
社交网站热点话题发现_第2页
社交网站热点话题发现_第3页
社交网站热点话题发现_第4页
社交网站热点话题发现_第5页
资源描述:

《社交网站热点话题发现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、烟台大学毕业论文(设计)[摘要]微博的迅猛发展,带来了另一种社会化得新闻媒体新形式,随着社交网络的不断发展,国外的推特和国内的新浪微博、腾讯微博,已经成为消息发布的重要平台。微博内容不仅包含大量的文字信息,也包括了很多无话题表达能力的特殊符号、表情符号、微博账号等,传统的文本发掘算法已经不能很有效地提取出热点话题来。使用中文分词技术可以更准确的过滤掉微博文本中无话题表征能力的中文词语,将微博信息表示成只有一个个主题词表示的简单文本,从语义上能更好的挖掘微博话题。本文结合中文文本分词技术、FP-TREE和AP聚类算法三种方法用于微博话题提取,使用增量聚类方式微博聚类,对后两种算法进行了详细

2、的设计,并对两种算法在实际样本上进行了实验,比较这两种算法在实际操作环节的效果。本文从事了以下几项工作:(1)对微博文本进行分词,过滤掉不相关的文本词语,统计出每个词出现的频率,并进行排序。(2)使用TF-IDF算法提取高频词元。(3)运用FP-TREE算法进行频繁项集挖掘,获取热点话题。(4)对排序后的词频结合原文本统计出每两个词在一篇微博中呈现的次数的总和。(5)运用AP聚类算法进行热门话题提取。使用两种不同的算法对原始数据进行热点话题的提取,并对两种算法进行了比较,发现AP聚类算法比FP-TREE更适合热点话题的发现。[关键词]话题提取;AP聚类;TF-IDF;FP-TREE算法烟

3、台大学毕业论文(设计)Abstract:Therapiddevelopmentofmicro-blogshasbroughtanewformofsocialmedia.Andwiththecontinuousdevelopmentofsocialnetworks,foreignTwitteranddomesticSinaWeibo,TencentWeibohasbecomeanimportantplatformfornewsreleasing.Weibonotonlyincludesaseriesoftext,butalsomeaninglesstopicsofspecialsymbol

4、sandzombieaccounts.Thereforetraditionaltextminingalgorithmscannotareunabletoeffectivelyextractthehottopicfrommicro-blogs.UsingChinesewordsegmentationTechnologycanmoreaccuratelyfilteroutmeaninglesstopicsandmicro-bloginformationwillbeexpressedasasimpletextcontainingonetopicword,thusbetterdigmicro-b

5、logtopicsfromthesemantic.ThisarticlecombinesChinesewordsegmentationtechnology,FP-TREEandAPclusteringmethodsformicrobloggingtopicextraction.Weuseincrementalclusteringapproachtoclustermicrobloggingandconductadetaileddesignforthelatertwoalgorithms.Thenweputthetwoalgorithmsonanactualexperimentsamples

6、tocomparetheactualeffectsofthesetwoalgorithmsInthispaper,weundertakethefollowingtasks:(1)Micro-blogtextsegmentation,filteringoutirrelevanttextwords,countingandsortingtheoccurrencerateofeachword.(2)UsingtheTF-IDFalgorithmtoextracthigh-frequencywords.(3)UsingtheFP-TREEalgorithmfrequentitemsetmining

7、togetahottopic.(4)Combiningfrequencysortedwiththeoriginaltexttosumupthewholeoccurrencerateofpertwowordsinthemicroblogging.(5)UsingAPclusteringalgorithmtoextractahottopic.Weusedandcomparedtwodifferentalgorithmstoextract

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。