欢迎来到天天文库
浏览记录
ID:58127698
大小:290.10 KB
页数:4页
时间:2020-04-24
《一种消除孤立点的微博热点话题发现方法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第31卷第1期计算机应用与软件Vo1.31No.12014年1月ComputerApplicationsandSoftwareJan.2014一种消除孤立点的微博热点话题发现方法赖锦辉梁松(广东石油化工学院实验教学部计算机中心广东茂名525000)。(广东石油化工学院计算机与电子信息学院广东茂名525000)摘要微博具有数量多、字数少、话题广泛等特点,导致数据中孤立点较多,对微博热点话题聚类算法产生不利影响,为此,提出一种消除孤立点的微博热点话题发现方法。首先消除数据集中的孤立点,然后采用CURE(ClusteringUsingRepresentatives)
2、算法对剩余有聚类价值的数据进行聚类,最后通过实例验证算法的有效性。结果表明,相对于对比聚类算法,该算法降低聚类结果对孤立点的敏感度,提高了微博热点话题发现的准确性,并提高了算法的运行效率,更适合应用于大规模的微博热点话题发现。关键词微博热点话题孤立点CURE算法发现中图分类号TP391文献标识码ADOI:10.3969/j.issn.1000-386x.2014.o1.028AMICRoBLoGGINGHoTTOPICSDISCoVERYMETHODBASEDoNOUTLIERSELIMINATIoNLaiJinhuiLiangSong(ComputerCen
3、ter,GuangdongUniversityofPetrochemicalTechnology,Maoming525000,Guangdong,China)(CollegeofComputerandElectronicInformation,GuangdongUniversityofPetrochemicalTechnology,Maoming525000,Guangdong,China)AbstractMicroblogginghasthecharacteristicsoflargenumber,fewerwordsandwiderangeoftopics
4、,theseleadtoquiteafewisolatedpoints(outliers)inmicrobloggingdatawhichhaveadverseeffectonclusteringalgorithmofmicroblogginghottopics.Therefore,weproposeamicrobloggingtopicdiscoverymethodwhichisbasedonoutlierselimination.First,theoutliersareremovedfromdataset,andthentheCUREalgorithmis
5、usedtoclusterthosedataremainedandhavingclusteringvalue,finallythevalidityofthealgorithmisverifiedbyexamples.Resultsshowthat,comparedwithcontrastiveclusteringalgorithm,theproposedalgorithmreducesthesensitivityofclusteringresultonoutliers,improvestheaccuracyofmicroblogginghottopicsdis
6、covery,andraisestheoperationeficiencyofthealgorithm,itismoresuitableforapplyinginlarge-scalemicroblogginghottopicsdiscovery.KeywordsMicroblogginghottopicsOutliersCUREalgorithmDiscovery现不规则形状;K均值算法等对数据集中的噪声、孤立点敏0引言感-9J。CURE算法是一种适用于大型数据集的层次聚类算法,不仅能够处理非球形、类大小差别比较大的数据,而且采用抽样随着Web2.0技术和社
7、会网站不断发展,互联网进入了一和分割预聚类方案,降低了总的数据量,但并不影响聚类结果的个完全崭新的“自媒体”时代。以新浪微博、Twitter等为代表的质量,提高了运算效率;因此许多学者将其引入到微博话题检测微博网站成为了人们关注的焦点,但随之而来的巨大的信息量中,取得了不错的效果。但在实际应用中,分布于网络中的也给人们带来了困扰,如何从海量的微博信息流中检测最新的文本包含话题广泛,虽然存在热点话题,但是除此以外,还存在热点话题,便成为人们一种迫切的需求⋯。许多与热点话题不同的文本,这就导致微博数据集存在许多孤微博平台中的信息不同于博客或普通新闻网页中的信息,立
8、点数据,微博在聚类的过程中会出现“长尾
此文档下载收益归作者所有