关于K均值聚类算法的综述及改进分析

ID：38640439

大小：45.00 KB

页数：6页

时间：2019-06-16

资源描述：

《关于K均值聚类算法的综述及改进分析》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、关于K均值聚类算法的综述及改进分析摘要：K-means聚类算法是空间聚类领域的重要算法。本文在介绍了空间聚类规则的基础之上，同时叙述了经典的K-means算法，并总结了一些针对K-means算法的相关改进。引言：聚类算法是我们在模式识别中学到的知识，而空间聚类分析方法是空间数据挖掘理论中一个重要的领域，是从海量数据中发现知识的一个重要手段。K-means算法是空间聚类算法中应用非常广泛的算法，同时它也在聚类分析中起着重要作用。日益丰富的空间和非空间数据收集存储于空间数据库中，随着空间数据的不断膨胀，海量的空间数据的大小、复杂性都在快速增长，远远超出了人们的解译能力，

2、从这些空间数据中发现邻域知识迫切需求产生一个多学科、多邻域综合交叉的新兴研究邻域，空间数据挖掘技术应运而生。空间聚类：空间聚类是空间数据挖掘的一个重要组成部分。作为数据挖掘的一个功能，空间聚类可以作为一个单独的工具用于获取数据的分布情况，观察每个聚类的特征，关注一个特定的聚类集合以深入分析。空间聚类也可以作为其它算法的预处理步骤，比如分类和特征描述，这些算法将在已发现的聚类上运行。空间聚类规则是把特征相近的空间实体数据划分到不同的组中，组间的差别尽可能大，组内的差别尽可能小。空间聚类规则与分类规则不同，它不顾及已知的类标记，在聚类前并不知道将要划分成几类和什么样的类

3、别，也不知道根据哪些空间区分规则来定义类。因而，在聚类中没有训练或测试数据的概念，这就是将聚类称为是无指导学习（unsupervisedlearning）的原因。在多维空间属性中，框定聚类问题是很方便的。给定m个变量描述的n个数据对象，每个对象可以表示为m维空间中的一个点，这时聚类可以简化为从一组非均匀分布点中确定高密度的点群。在多维空间中搜索潜在的群组则需要首先选择合理的相似性标准。已经提出的空间聚类的方法很多，目前，主要分为以下4种主要的聚类分析方法:①基于划分的方法包括K—平均法、K—中心点法和EM聚类法。它们都是采用一种迭代的重定位技术,尝试通过对象在划分间

4、移动来改进聚类效果。由于这类方法适用于发现大小相近的球状簇,故常用在设施选址等应用中。②基于层次的方法此法只是对对象集合进行分解。根据层次的分解方式,这类方法可分为凝聚和分裂两种,Birch,Cure和Chameleon是上述方法的改进。③基于密度的方法对给定类中的每个数据点,在一个给定范围的区域中必须包含超过某个阈值的数据点,才继续聚类。它可以用来发现任意形状的簇,过滤“噪声”。代表性的方法有:DBscan,Optics和Denclue。④基于栅格的方法把对象空间划为有限的数据单元,形成一个网格结构。该方法处理速度快,处理时间独立于数据对象的数目。常用的方法有ST

5、ING、WaveCluster以及CLIQUE等。在这些方法当中，K-means（k—均值）算法是一种应用十分广泛的聚类分析方法。经典的K-Means算法k-means算法接受输入量k；然后将n个数据对象划分为k个聚类以便使得所获得的聚类满足：同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。聚类相似度是利用各聚类中对象的均值所获得一个“中心对象”（引力中心）来进行计算的。大体上说，k-means算法的工作过程说明如下：首先从n个数据对象任意选择k个对象作为初始聚类中心；而对于所剩下其它对象，则根据它们与这些聚类中心的相似度（距离），分别将它们分配给与其最相

6、似的（聚类中心所代表的）聚类；然后再计算每个所获新聚类的聚类中心（该聚类中所有对象的均值）；不断重复这一过程直到标准测度函数开始收敛为止。一般都采用均方差作为标准测度函数.k个聚类具有以下特点：各聚类本身尽可能的紧凑，而各聚类之间尽可能的分开。下面详细地介绍K-means聚类问题，假设有一组N个数据的集合X={x1，x2，x3，…，xn}待聚类。K均值值聚类问题是要找到X的一个划分Pk={C1，C2，C3，…，Ck}，使目标函数f（Pk）=最小。其中，mi=1/ni，表示第i个簇中心位置，i=1，…，k；ni是簇Ci中数据项的个数；表示xi到mi的距离。通常的空间聚

7、类算法是建立在各种距离基础上的，如欧几里得距离、曼哈顿距离和明考斯距离等。其中，最常用的是欧几里得距离。K-means算法的基本思想是：给定一个包含n个数据对象的数据库，以及要生成簇的数目k，随机选取k个对象作为初始的k个聚类中心；然后计算剩余各个样本到每一个聚类中心的距离，把该样本归到离它最近的那个聚类中心所在的类，对调整后的新类使用平均值的方法计算新的聚类中心；如果相邻两次的聚类中心没有任何变化，说明样本调整结束且聚类平均误差准则函数已经收敛。本算法在每次迭代中都要考察每个样本的分类是否正确，若不正确，就要调整。在全部样本调整完成后修改聚类中心，进入下一次迭

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 6



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

关于K均值聚类算法的综述及改进分析

关于K均值聚类算法的综述及改进分析

相关文章

相关标签