欢迎来到天天文库
浏览记录
ID:57924298
大小:620.40 KB
页数:7页
时间:2020-04-14
《基于近邻传播与密度相融合的进化数据流聚类算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、JournalofComputerApplicationsISSN1001—90812015.07.10计算机应用,2015,35(7):1927—1932,1949CODENJYIIDUhttp://www.joca.en文章编号:1001-9081(2015)07—1927—06doi:10.11772/j.issn.1001—9081.2015.07.1927基于近邻传播与密度相融合的进化数据流聚类算法邢长征,刘剑(辽宁工程技术大学研究生院,辽宁兴城125105)(通信作者电子邮箱954443316@qq.con)摘要:针对目前数据流离群点
2、不能很好地被处理、数据流聚类效率较低以及对数据流的动态变化不能实时检测等问题,提出一种基于近邻传播与密度相融合的进化数据流聚类算法(I-APDenStream)。此算法使用传统的两阶段处理模型,即在线与离线聚类两部分。不仅引进了能够体现数据流动态变化的微簇衰减密度以及在线动态维护微簇的删减机制。而且在对模型采用扩展的加权近邻传播(WAP)聚类进行模型重建时,还引进了异常点检测删除机制。通过在两种类型数据集上的实验结果表明,所提算法的聚类准确率基本能保持在95%以上,其纯度对比实验等其他相关测试都有较好结果,能够高实效、高质量、高效率地处理数据流数
3、据聚类。关键词:离群点;数据流聚类;近邻传播;微簇中图分类号:TP391;TP18文献标志码:AEvolutionarydatastreamclusteringalgorithmbasedonintegrationofafinitypropagationanddensityXINGChangzheng,LIUJian(GraduateSchool,LiaoningTechnicalUniversity,XingchengLiaoning125105,China)Abstract:Tosolvetheproblemsthatthedatastrea
4、moutlierscannotbedisposedwell,theeficiencyofclusteringdatastreamislowandthedynamicchangesofdatastreamcannotbereal—timedetected,anevolutionarydatastreamclusteringalgorithmbasedonintegrationofaffinitypropagationanddensity(I-APDenStream)wasproposed.Thetraditionaltwo—stageprocess
5、ingmodelwasusedinthisalgorithm,namelyonlineandofflineclustering.Notonlythedecaydensityofmicro—clusterwhichcouldrepresentthedynamicchangesofdatastreamanddeletionmechanismforonlinedynamicmmntenanceofmicro-clusterwereintroduced,butalsotheoudiers’detectionandsimplificationmechani
6、smformodelextendedWeightAfinityPropagation(WAP)clusterwasintroduced.Theexperimentalresultsontwotypesofdatasetsdemonstratethattheclusteraccuracyoftheproposedalgorithmremainsatabove95%,andalsoachievesconsiderableimprovementswithrespecttothepuritycomparedtootheralgorithms.Thepro
7、posedalgorithmcanclusterthedatastreamwithhishreal—time.highqualityandhigheficiency.Keywords:outlier;datastreamclustering;AfinityPropagation(AP);micro—cluster于其他形态布局的流数据聚类则不是很理想。对此,Aggawal0引言等研究者进一步设计了HPStream算法,其应用衰减函数和在当今快速发展的信息时代,各式各样的数据在人们的高维射影的方法来进行高维类型数据流的聚类分析,然仍需生活当中随处可
8、见,如何有效地从这些数据中得到人们想要要提前设定维数均值;Cao等设计出DenStream算法,在的信息,一直是研究者们的研究热点。尤其
此文档下载收益归作者所有