聚类方法及原理介绍(文档)

聚类方法及原理介绍(文档)

ID:14091903

大小:71.50 KB

页数:4页

时间:2018-07-26

聚类方法及原理介绍(文档)_第1页
聚类方法及原理介绍(文档)_第2页
聚类方法及原理介绍(文档)_第3页
聚类方法及原理介绍(文档)_第4页
资源描述:

《聚类方法及原理介绍(文档)》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、将物理或抽象对象的集合分组成为有类似的对象组成的多个簇的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。在许多应用中,可以将一个簇中的数据对象作为一个整体来对待。  目前在文献中存在大量的聚类算法。算法的选择取决于数据的类型、聚类的目的和应用。如果聚类分析备用作描述或探查的工具,可以对同样的数据尝试多种算法,以发现数据可能揭示的结果。  大体上,主要的聚类技术可以划分为如下几类: 1.划分方法  给定一个个对象或元组的数据库,一个划分方法构建数据的k个划分

2、,每个划分表示一个聚簇,并且k  (i)每个组至少包含一个对象;  (ii)每个对象必须属于且只属于一个组。  给定要构建的划分数目k,划分方法首先创建一个初始划分。然后采用一种迭代的重定位技术,尝试通过对象在划分间移动来改进划分。一个好的划分的一般准则是:在同一类中的对象之间尽可能“接近”或相关,而不同类中的对象之间尽可能“远离”或不同。还有许多其它划分质量评判准则。  为了达到全局最优,基于划分的聚类会要求穷举三所有可能的划分。实际上,绝大多数应用采用了以下两个比较流行的启发式方法:  (1)聚于质心的技术:k-平

3、均方法  k-平均算法以k为参数,把n个对象分为k个簇,以使簇内具有较高的相似度,而簇间的相似度较低。相似度的计算根据一个簇中对象的平均值(被看作簇的重心)来进行。  k-平均算法的处理流程如下。首先,随机地选择k个对象,每个对象初始地代表一个簇的平均值或中心。对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇。然后重新计算每个簇的平均值。这个过程不断重复,直到准则函数收敛。通常采用平方误差准则,其定义如下:(2-1) 这里的E是数据库中所有对象的平方误差的总和,p是空间的点,表示给定的数据对象,mi是簇Ci

4、的平均值(p和mi都是多维的)。这个准则是使图生成的结果簇尽可能的紧凑和独立。  例1假设有一个分布在空间中的对象集合,如图2-1所示。给定k=3,即要求将这些对象聚类为三个簇。根据k-平均算法,我们任意选择三个对象作为初始簇的中心,簇中心在图中用“+”来标示。根据与簇中心的距离,每个对象分配给离其最近的一个簇。这样分布形成如图a中所绘的图形。  这样的分组会改变聚类的中心,也就是说,每个聚类的平均值会根据类中的对象重新计算。依据这些新的聚类中心,对象被重新分配到各个类中。这样重新分配形成了图b中描绘的轮廓。  以上的

5、过程重复产生了图c的情况。最后,当没有对象重新分配发生时,处理过程结束,聚类的结果被返回。图2-1 基于K-means方法的一组对象的聚类  这个算法尝试找出是平方误差函数值最小的K个划分,当结果簇是密集的,而簇与簇之间区别明显时,它的效果较好。对处理大数据集,该算法是相对可伸缩的和高效率的,因为它的复杂程度是O(nkt)。其中,n是所有对象的数目,k是簇的数目,t是迭代的数目。通常的,k但是,k-平均方法只有在簇的平均值被定义的情况下使用。这可能不适应某些应用。例如涉及有分类属性的数据。要求用户必须事先给出k(要生成

6、的簇的数目)可能算是该方法的一个缺点。K-平均方法不适合于发现非凸面形状的簇,或者大小差别很大的簇,并且,它对于“噪声”和孤立点数据很敏感,少量的该类数据能够对平均值产生很大影响。  (2)基于有代表性的对象的技术k-中心点方法  采用簇中位置最中心的对象,作为参照点即中心点,这样划分依然是基于最小化所有对象与参照点之间的相异度之和的原则来执行的。这是k-中心点的基础。它的基本策略是:首先为每个簇随意选择一个代表对象;剩余对象根据与代表对象的距离分配给最近的一个簇。然后反复用非代表对象代替代表对象,以改进聚类的质量。聚

7、类结果的质量用一个代价函数来估算,该函数度量对象与参照对象之间的平均相异度。为了判定一个非代表对象是否是当前一个代表对象的好的替代,对于每一个非中心点对象p,下面的四种情况被考虑: 1.第一种情况:p当前隶属于中心点Oj。如果Oj被Orandom所代替作为中心点,且p离一个Oi最近,i≠j,那么p被重新分配给Oi.2.第二种情况:p当前隶属于中心点Oj.如果Oj被Orandom代替作为中心点,且p离Orandom最近,那么p被重新分配给Orandom。 3.第三种情况:p当前隶属于中心点Oi,i≠j。如果Oj被Oran

8、dom代替作为一个中心点,而p依然离Oi最近,那么对象的隶属不发生变化。 4.第四种情况:p当前隶属于中心点Oi,i≠j。如果Oj被Orandom代替作为一个中心点,且p离Orandom最近,那么p被重新分配给Orandom。  图2-2描述了上述四种情况。每当重新分配发生时,平方误差E所产生的差别对代价函数有影响。因此一个当前的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。