资源描述:
《聚类分析综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、聚类算法综述聚类是数据挖掘的重要工具,根据数据间的相似性将数据库分成多个类,每类中数据应尽可能相似。从机器学习的观点来看,类相当于隐藏模式,寻找类是无监督学习过程。目前己有应用于统计、模式识别、机器学习等不同领域的几十种聚类算法。该文对数据挖掘中的聚类算法进行了归纳和分类,总结了几类算法并分析了其性能特点。关键词:聚类算法;相似性度量;K-means;EM;AbstractClusteringplaysanoutstandingroleindataminingapplications.Clusteringisadivisionofdatabasesintogroupsofsimi
2、larobjectsbasedonthesimilarity.Fromamachinelearningperspectiveclusterscorrespondtohiddenpatterns,thesearchforclustersisunsupervisedlearning.Therearetensofclusteringalgorithmsusedinvariousfieldssuchasstatistics,patternrecognitionandmachinelearningnow.Thispaperconcludestheclusteringalgorithmsus
3、edindataminingandassortsthemintomanyclasses.Eachtypesofalgorithmsaresummarizedandtheirperformancesareanalyzedhere.KeyWords:clusteringalgorithm;similaritymeasurement;K-means;EM;1、引言聚类就是将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一簇中的对象彼此相似,与其它簇中的对象相异。聚类分析是一种无监督的过程,它同分类的根本区别在于:分类是需要
4、开始知道所根据的特征,而聚类是要准确的找到这个数据特征,因此在许多的应用中,聚类分析更是定义为一种数据预处理的过程,是进一步解析和处理数据的根本。它已经被广泛地应用于统计学、机器学、空间数据库、生物学以及市场营销等领域,聚类分析还可以作为独立的数据挖掘工具来了解数据分布,或者作为其他数据挖掘算法(如关联规则、分类等)的预处理步骤。聚类算法可以分为基于的层次方法、基于划分的方法、基于网格的方法、基于密度的方法和基于模型的方法。2、数据的相似性度量聚类分析按照样本点之间的亲疏远近程度进行分类。为了使类分得合理,必须描述样本之间的亲疏远近程度。刻画聚类样本点之间的亲疏远近程度主要的方法
5、是利用距离度量的方法,常用的距离度量方法有欧几里德距离、余弦距离和马氏距离等,下面分别对这几种距离进行了阐述。给定数据集Z={z1,z2,…,zp,…,zNp},其中zp是Nd维特征空间中的一个特征向量,而Np是特征空间Z中特征向量的个数。[1]2.1、欧几里德距离欧几里德距离又叫欧氏距离,它的定义为:d(zu,zw)=j=1Nd(zu,j-zw,j)2=
6、
7、zu-zw
8、
9、公式(1)欧氏距离即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。欧氏距离虽然简单而且最常用,但是它有一个缺点是它将样本的不同属性(即各指标或各变量)之间的差别等同看待。这一点在
10、很多的应用中都不能满足要求。2.2余弦距离余弦距离定义为如下:<zu,zw>=j=1Ndzu,jzw,jzu
11、zw
12、公式(2)其中<zu,zw>∈[-1,1]。余弦距离是通过测量两个向量内积空间的夹角的余弦值来度量它们之间的相似性。余弦距离可以用在任何维度的向量比较中,它尤其在高维正空间中的利用尤为频繁。它通常用于文本挖掘中的文件比较。此外,在数据挖掘领域中,用它来衡量集群内部的凝聚力。2.2马氏距离马氏距离是由印度统计学家马哈拉诺比斯提出的,它的定义为如公式(3)所示。dM(zu,zw)=(zu-zw)∑-1(zu-zw)T公式(3)它是一种有效的计算两个未知样本集的相似度的方
13、法。与欧氏距离不同的是它考虑到各种特性之间的联系,并且是尺度无关的(scale-invariant),即独立于测量尺度。3、聚类方法目前聚类算法基本上是基于层次的聚类方法和基于划分的聚类方法。下面对分别这两种方法进行介绍。3.1基于层次的聚类方法层次聚类算法,它是通过将数据组织为若干组并形成一个相应的树来进行聚类的。根据层次是自底向上还是自顶而下形成,层次聚类算法可以进一步分为凝聚型的聚类算法和分裂型的聚类算法。一个完全层次聚类的质量由于无法对已经做的合并或分解进行调整而受到影响