资源描述:
《数据挖掘聚类算法研究_喻彪》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、综述现代制造工程2009年第3期数据挖掘聚类算法研究121喻彪,骆雯,赖朝安(1华南理工大学现代制造信息系统研究中心,广州510640;2华南理工大学机械与汽车工程学院,广州510640)摘要:聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。全面总结了大部分常用聚类算法的主要特点,对一些经典聚类算法进行比较,并提出了相关结论,最后对几种新型的聚类算法进行基本概括。关键词:聚类;数据挖掘;聚类算法中图分类号:O242文献标识码:A文章编号:1671)3133(2009)03)0141)05Re
2、searchofclusteringalgorithmsbasedondataminingYUBiao1,LUOWen2,LAIChao-an1(1ResearchCenterofContemporaryManufacturingInformationSystem,SouthChinaUniversityofTechnology,Guangzhou510640,CHN;2SchoolofMechanical&AutomotiveEngineering,SouthChinaUniversityofTec
3、hnology,Guangzhou510640,CHN)Abstract:ClusteringisanmiportanttechnologyinDataMining(DM)forthediscoveryofdatadistributionandlatentdatapat-tern.Providesadetailedsurveyofprmiarytraitofmostgeneralclusteringalgorithmatfirs,tthenmakesacomparisonamongsomecluste
4、ringalgorithmandgetsomeconclusion,andgeneralizesomenewclusteringalgorithmbasicallyatlas.tKeywords:clustering;DataMining(DM);clusteringalgorithm特点比较,并对聚类的新发展进行归纳。0引言1数据挖掘聚类算法分类聚类(Clustering)分析是数据挖掘技术的重要组成部分,它能从潜在的数据中发现新的、有意义的数目前存在着大量的聚类算法,而算法的选取主要据分布模式,已
5、经广泛应用于模式识别、数据分析、图像识别及其他许多方面。聚类[1]是在事先不规定分[1]是在事先不规定分取决于所研究数据的类型、聚类的目的和应用等方面,要针对某一具体问题选用一种合适的聚类算法。组规则的情况下,将数据按照其自身特征划分成不同
主要聚类算法的分类见表1。的群组。其重要特征是/物以类聚0,即要求在不同群组的数据之间差距越大、越明显越好,而每个群组内部的数据之间要尽量相似,差距越小越好。表1主要聚类算法分类类别包括的主要算法划分(分裂)K-MEANS算法(K-平均)、K-MEDOIDS算法(
6、K-中心聚类是一个具有挑战性的研究领域,目前对聚类方法点)、CLARANS算法(基于选择的算法)算法的研究非常多。基本上所有的聚类算法都具有其各自的特点,只适用于某些特定领域,目前还没有层次方法基于密度BIRCH算法(平衡迭代规约和聚类)、CURE算法(代表点聚类)、CHAMELEON算法(动态模型)DBSCAN算法(基于高密度连接区域)、DENCLUE算能适用于各种领域的聚类算法。如较常用的K-的方法法(密度分布函数)、OPTICS算法(对象排序识别)MEANS算法主要以方法简单、执行效率高见长,但
7、只能识别大小近似的球形类;DBSCAN算法能很好地过滤噪声数据,但其时间复杂度却为O(n2),效率不高。2),效率不高。聚类算法大体可分为五类:划分方法、层次方法、基于基于网格的方法基于模型的方法STING算法(统计信息网络)、CLIOUE算法(聚类高维空间)、WAVE-CLUSTER算法(小波变换)统计学方法、神经网络方法密度的方法、基于网格的方法以及基于模型的方法。111划分方法(partitioningmethod)本文主要分析聚类算法的几大类别及常用算法给定一个有N个元组或者记录的数据集,该方
8、法141现代制造工程2009年第3期综述将构造K个分组(要构造的K个分组划分即最后聚类Application,CLARA)的算法,它的主要思想是不考虑的结果簇数),每个分组代表一个聚类,要求K