基于随机游走的数据聚类

基于随机游走的数据聚类

ID:27731789

大小:1.14 MB

页数:9页

时间:2018-12-05

基于随机游走的数据聚类_第1页
基于随机游走的数据聚类_第2页
基于随机游走的数据聚类_第3页
基于随机游走的数据聚类_第4页
基于随机游走的数据聚类_第5页
资源描述:

《基于随机游走的数据聚类》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、HansJournalofDataMining数据挖掘,2017,7(3),70-76 PublishedOnlineJuly2017inHans.http://www.hanspub.org/journal/hjdm https://doi.org/10.12677/hjdm.2017.73008DataClusteringBasedonRandomWalkWeiCui1,XunXia1,YuluSun2*1LuzhouVocationalandTechnicalCollege,LuzhouSichuan2Collegeo

2、fElectronic&InformationEngineering,SichuanUniversity,ChengduSichuanReceived:Jun.28th,2017;accepted:Jul.17th,2017;published:Jul.20th,2017AbstractInordertorealizetheclusteringanalysisoflargedatavolumeandcomplextypesofdata,the randomwalkalgorithmmapsthedatasetintograp

3、hs,eachdatarepresentsnode,andusesa weightingfunctiontorepresenttherelationshipbetweendataanddata.Thesimilaritycriterion indicatestheweightbetweentwodatainthedataset.Intherandomwalkalgorithm,theweightof theweightrepresentstherandomwalkerfromthenon-seedpointforthefir

4、sttimetoreacha seedpointofpreference.Finally,clusteranalysisisrealizedaccordingtothemaximumtransition probability.Theresultsshowthattherandomwalkalgorithmcanachieveclusteringintheclus- teringanalysisofnumericaldata.KeywordsClusteringAnalysis,RandomWalkAlgorithm,Wei

5、ghtingFunction基于随机游走的数据聚类崔伟1,夏汛1,孙瑜鲁2*1泸州职业技术学院,四川泸州2四川大学电子信息学院,四川成都收稿日期:2017年6月28日;录用日期:2017年7月17日;发布日期:2017年7月20日摘要为了实现大数据量、复杂类型数据的聚类分析,本文运用随机游走算法是将数据集合映射为图,各个数 据表示节点,用一个加权函数表示数据与数据之间的关系,该加权函数能根据相似性准则表示数据集中*通讯作者。文章引用:崔伟,夏汛,孙瑜鲁.基于随机游走的数据聚类[J].数据挖掘,2017,7(3):70-76.

6、https://doi.org/10.12677/hjdm.2017.73008崔伟等两个数据间的权重。在随机游走算法中,权重的大小代表了随机游走者从非种子点第一次到达某一种子 点的偏好。最后根据最大转移概率实现聚类分析。结果表明随机游走算法在数值型数据的聚类分析中能够实现聚类。关键词聚类分析,随机游走,权重函数Copyright©2017byauthorsandHansPublishersInc.ThisworkislicensedundertheCreativeCommonsAttributionInternationa

7、lLicense(CCBY). http://creativecommons.org/licenses/by/4.0/OpenAccess1.引言聚类是按照某个特定准则把已知数据集分成不同的类,同类的数据对象间相似度尽可能大,不同类的数据对象间的相似度尽可能小。聚类分析作为数据挖掘技术中的重要组成部分,目前在许多领域都得到了广泛的研究和应用如模式识别[1]、数据分析[2]、图像处理[3]、市场研究[4]、Web文档分类[5]等。聚类算法的选择取决于数据的类型及其聚类的目的。根据其基本思想可分为划分、层次、密度、基于网格的方法

8、以及基于模型的方法。基于划分的主要思想是:首先给定簇数目,然后对数据集采用迭代重定位方法实现划分,划分质量取决于初始种子和聚类标准。K-means算法[6]从数据集中任意选择k个对象作为初始种子,以最短距离为准则将数据进行分类,该方法以均值表示类中心易受奇异数据的影响,为了抑制异常数据对聚

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。