一种改进k均值聚类算法

一种改进k均值聚类算法

ID:23014212

大小:171.00 KB

页数:7页

时间:2018-11-02

一种改进k均值聚类算法_第1页
一种改进k均值聚类算法_第2页
一种改进k均值聚类算法_第3页
一种改进k均值聚类算法_第4页
一种改进k均值聚类算法_第5页
资源描述:

《一种改进k均值聚类算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、....数据挖掘报告姓名:朱晓康班级:086121学号:20121002250指导老师:蒋良孝........改进的K均值聚类算法摘要:K-means算法以其简单性和快速性在文本聚类中得到广泛应用,但是传统的K-means算法对初值的依赖性很强,需要事先给出要生成的簇的数目k,而这个参数k的确定一般是根据用户的经验知识给出的;另外,其初始聚类中心是随机选取的,这种随机性往往导致聚类结果的不稳定。可以说,不同的k值和不同的初始聚类中心对聚类质量和时间效率造成的影响是很大的。实验对改进K-means算法的有效性进行了验证,结果证明

2、,改进K-means算法能有效地解决传统K-means算法的随机性所产生的聚类效果不稳定的问题,其时间复杂度也有所降低。一.引言聚类分析广泛应用于模式识别、图像处理、文本挖掘等领域,是非常重要的数据分析方法之一。目前已提出的聚类算法有很多,这些算法可以被分为基于划分的方法、基于层次的方法、基于密度的方法、基于网格的方法和基于模型的方法。在聚类方法中,K均值算法是最著名和最常用的划分方法之一。K均值算法由于实现简单、收敛速度快,自出现以来,已经提出了许多改进的算法。以往文献提出了一种关于K均值的局部搜索近似算法以及针对初始中心敏

3、感提出了一种选取初始聚类中心的算法。本文针对传统K均值算法中计算相似性和选取初始中心点的不足,提出一种改进的算法。二.传统的K均值聚类算法K均值法具有经典的聚类思想,逻辑简明清晰。它的主要步骤如下:步骤1对给定的m×n矩阵,给出k个n维向量作为初始中心点。步骤2比较数据集当中样本点与各中心点间的距离,将各点划分到与其距离最近的类中,形成初始分类。........步骤3计算步骤2所形成的类的中心,使每类中心点得以更新。步骤4重复步骤2和3,直到中心点不再移动,各类所包含的样本点也不再改变为止。对于K-means算法而言,虽然其算

4、法简单,实现比较容易,但是它的缺点也比较明显:1.算法之初需要用户事先给出簇的个数,而这个信息通常是聚类之后才知道的。这样就可能出现以下的情况:原本属于同类的对象却被强行拆分到不同的簇中,或是原本不属一类的对象却被强行放到一个簇中。2.对孤立点敏感。孤立点是指离聚类中心较远,且分布相对稀疏的对象。这样的点对簇的质心计算影响很大,从而影响聚类效果。3.不能发现非球形的簇、或大小差别很大的簇。与上一点相似,形状不规则的簇对质心计算影响很大,如果质心不在簇内部,聚类过程中可能将其他簇的成员纳入该簇。4.经常陷入局部最优解,而无法得到

5、全局最优解。5.聚类结果不稳定,即使对于同样的输人参数,聚类的结果可能完全不同。三.K均值聚类算法的改进改进思想:1.对孤立点的检测。经典是K均值算法忽略了孤立点。孤立点都是基于距离进行计算的,是数据集u中到其最近邻居的距离最大的对象,换言之,孤立点是数据集中与其最近邻居的平均距离最大的对象。改进过程:先扫描一次数据集,数据个数记为n,计算每一个数据对象与其他对象的距离,累加距离和,并计算出距离和均值。如果某个数据对象的距离和大于距离和均值,则被视为孤立点。把这个对象从数据集中移除到孤立点集。重复以上操作,直到所有孤立点都移除

6、,孤立点个数记为t。最后得到的新数据集就是聚类的初始集合个数记为m,则m=n-t。........2.k值的确定。通常,用户事先并不知道给定的数据集该分成多少个类才最合适。也不知道选取什么样的k值会对聚类分析更有利。对于k值的确定和计算,大多数理论支持过,最佳聚类个数,最大聚类个数,n数据元素个数。3.基于密度和距离选择初始聚类中心。定义1:密度参数:以空间点施为中心,包含常数Minpts个数据对象的半径称之为对象施的密度参数,用∈表示。∈越大,说明数据对象所处的区域的数据密度越低。反之,说明数据对象所处区域的数据密度越高。定

7、义2:空间两点的距离用公式:样本x和样本y的距离公式:定义3:一个样本点与一个样本集的距离定义为这个样本点与这个样本集中所有样本点当中最近的距离,则一个样本点x和一个样本集合z之间的距离定义如下:定义4:两个集合S和Y之间距离定义为最近的两个数据。对象X和V之间的距离:计算数据集中每个数据所处区域的数据密度,将密度最大的点作为第1个初始聚类中心,将与距离最大的一个高密度点作为第2个初始聚类中心,作为第k(k≥3)个初始聚类中心的数据对象应满足地条件为:直到选择的初始聚类中心个数达到目标数量。这样选择的初始聚类中心可以较好的反映

8、数据分布特征,防止初值选择的随机性使结果终止与局部最优。改进的K—mean算法描述如下:输入:数据集,初始簇中心个数k。输出:聚类结果及孤立点。........1.初始化:其中g是存放孤立点的集合,t为孤立点的个数,m为移除孤立点后的数据对象个数。2.计算m内所有数据对象和之

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。