欢迎来到天天文库
浏览记录
ID:13843586
大小:3.16 MB
页数:29页
时间:2018-07-24
《社交网站热点话题发现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、烟台大学毕业论文(设计)[摘要]微博的迅猛发展,带来了另一种社会化得新闻媒体新形式,随着社交网络的不断发展,国外的推特和国内的新浪微博、腾讯微博,已经成为消息发布的重要平台。微博内容不仅包含大量的文字信息,也包括了很多无话题表达能力的特殊符号、表情符号、微博账号等,传统的文本发掘算法已经不能很有效地提取出热点话题来。使用中文分词技术可以更准确的过滤掉微博文本中无话题表征能力的中文词语,将微博信息表示成只有一个个主题词表示的简单文本,从语义上能更好的挖掘微博话题。本文结合中文文本分词技术、FP-TREE和AP聚类算法三种方法用于微博话题提取,使用增量聚类方式微博聚类,对后两种算法进行了详细
2、的设计,并对两种算法在实际样本上进行了实验,比较这两种算法在实际操作环节的效果。本文从事了以下几项工作:(1)对微博文本进行分词,过滤掉不相关的文本词语,统计出每个词出现的频率,并进行排序。(2)使用TF-IDF算法提取高频词元。(3)运用FP-TREE算法进行频繁项集挖掘,获取热点话题。(4)对排序后的词频结合原文本统计出每两个词在一篇微博中呈现的次数的总和。(5)运用AP聚类算法进行热门话题提取。使用两种不同的算法对原始数据进行热点话题的提取,并对两种算法进行了比较,发现AP聚类算法比FP-TREE更适合热点话题的发现。[关键词]话题提取;AP聚类;TF-IDF;FP-TREE算法烟
3、台大学毕业论文(设计)Abstract:Therapiddevelopmentofmicro-blogshasbroughtanewformofsocialmedia.Andwiththecontinuousdevelopmentofsocialnetworks,foreignTwitteranddomesticSinaWeibo,TencentWeibohasbecomeanimportantplatformfornewsreleasing.Weibonotonlyincludesaseriesoftext,butalsomeaninglesstopicsofspecialsymbol
4、sandzombieaccounts.Thereforetraditionaltextminingalgorithmscannotareunabletoeffectivelyextractthehottopicfrommicro-blogs.UsingChinesewordsegmentationTechnologycanmoreaccuratelyfilteroutmeaninglesstopicsandmicro-bloginformationwillbeexpressedasasimpletextcontainingonetopicword,thusbetterdigmicro-b
5、logtopicsfromthesemantic.ThisarticlecombinesChinesewordsegmentationtechnology,FP-TREEandAPclusteringmethodsformicrobloggingtopicextraction.Weuseincrementalclusteringapproachtoclustermicrobloggingandconductadetaileddesignforthelatertwoalgorithms.Thenweputthetwoalgorithmsonanactualexperimentsamples
6、tocomparetheactualeffectsofthesetwoalgorithmsInthispaper,weundertakethefollowingtasks:(1)Micro-blogtextsegmentation,filteringoutirrelevanttextwords,countingandsortingtheoccurrencerateofeachword.(2)UsingtheTF-IDFalgorithmtoextracthigh-frequencywords.(3)UsingtheFP-TREEalgorithmfrequentitemsetmining
7、togetahottopic.(4)Combiningfrequencysortedwiththeoriginaltexttosumupthewholeoccurrencerateofpertwowordsinthemicroblogging.(5)UsingAPclusteringalgorithmtoextractahottopic.Weusedandcomparedtwodifferentalgorithmstoextract
此文档下载收益归作者所有