k-means聚类算法簇的个数的研究

k-means聚类算法簇的个数的研究

ID:30778181

大小:216.00 KB

页数:7页

时间:2019-01-03

k-means聚类算法簇的个数的研究_第1页
k-means聚类算法簇的个数的研究_第2页
k-means聚类算法簇的个数的研究_第3页
k-means聚类算法簇的个数的研究_第4页
k-means聚类算法簇的个数的研究_第5页
资源描述:

《k-means聚类算法簇的个数的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、K-means聚类算法聚类个数的方法研究摘要:在数据挖掘算法中,K均值聚类算法是一种比较常见的无监督学习方法,簇间数据对象越相异,簇内数据对象越相似,说明该聚类效果越好。然而,簇个数的选取通常是由有经验的用户预先进行设定的参数。本文提出了一种能够自动确定聚类个数,采用SSE和簇的个数进行度量,提出了一种聚类个数自适应的聚类方法(SKKM)。通过UCI数据集的实验,验证了SKKM可以快速的找到数据集中聚类个数。关键字:K・means算法;聚类个数;初始聚类中心;近年来;随着信息技术的发展,特别是云计算、物联网、社交网络等新兴应用的产生,我们的社会正从信息时代步入数据时代

2、。数据挖掘就是从大量的、不完整的、有噪声的、模糊的数据中通过数据清洗、数据集成、数据选择、数据变换、数据挖掘、数据评估、知识表示等过程挖掘出隐含信息的过程。目前,数据挖掘已经广泛的应在电信、银行、零售、公共服务、气象等多个行业与领域。聚类是数据挖掘中一项重要的技术指标,也受到人们的重视,并且广泛的应用在多个领域中[1]。K均值算法是一种基于划分的聚类算法。通常是由有经验的用户对簇个数K进行预先设定,一般用户很难确定K的值,K值设定的不正确将会导致聚类算法结果的错误,因此,本文提出了一种SKKM的方法对K值进行确认。传统的K均值聚类算法中的另外一个缺点就是初始中心点的选

3、取问题,随机选取初始中心点将会导致局部最优解,而不是全局最优解,因此,初始中心点的研究也是聚类算法比较热门的话题。文献[2]提出了基于划分的聚类算法,该方法对簇的个数并不是自动的获取,而是通过有经验的用户进行设走。现有的自动确定簇的个数的聚类方法通常需要给出一些参数,然后再确走簇的个数。如:IterativeSelforganizingDataAnalysisTechniquesAlgorithm,该方法在实践中需要过多的对参数进行设定,并且很难应用在高维数据中[3]。为了更方便的确定簇的个数,我们提岀了一种可以自动确定聚类个数的聚类方法。簇类个数通常是由某一指标来自

4、动确定,指标的好坏将直接影响聚类的效果。评价聚类算法准则通常是与簇内对象相似成正比,以簇间相似成反比。[4]根据SSE度量的性质,我们提出了基于SSE的K乘SSE的K均值聚类方法。该方法通过划分算法来分配数据点的结果,在最终的结果中利用SK来确定最佳聚类个数。从而可以自动确定聚类个数。本文提出的SKKM算法,不仅能够有效的自动确定簇的个数,而且适用于多维的数据。与其他的自动确定簇的个数聚类算法相比,我们的算法参数设置更少,在实践中更容易使用,并且在对UCI中的数据集和仿真数据的实验中证明了SKKM算法的有效性。1.改进的k-Means算法SKKM算法是本文提出的一种自

5、动确定聚类个数的方法,为了使读者可以更好的了解SKKM算法,我们首先介绍划分聚类方法和SK指标。1.1划分聚类方法K-means算法是将数据集划分为K个簇的方法。簇的个数K是用户自己预先设定,并且簇的中心点是通过簇的质心来进行描述。算法在调用的过程中会用到欧式距离和质心的概念⑸,现在我们先来看下欧式距离和质心的定义。定义如下:定义1设向量…%)和勺=也"2,…如)分别表示两个数据向量,(D那么本文说的欧式距离走义为:d(ai,bJ)=^(ain-bjn)2其中n代表该数据集的维数。定义2对于同一个簇中,该簇的质心定义如下:呦斗工Pj丄iP冋其中I7「是该簇的数据个数,

6、匕为该簇的数据对象。K-means聚类算法是以K为参数,对数据集N个对象划分为K个数据簇,并且保证簇内数据对象相似度高,簇间数据对象相似度低。首先随机选择K个对象,每个对象代表着一个簇的中心。然后对数据集中的剩余数据对象分别计算到K个数据对象的距离,并且将其赋给最近的簇中。然后从新计算簇的质心,直到准则函数收敛⑹算法描述如下:Stepl:从数据集中随机取K个点作为起始质心Step2:分别计算数据集各个点到K个簇的欧式距离,并且将这些数据点划分到各个簇中Step3:依据聚类结果,通过簇内数据重新计算质心Step4:重复第二步”直到质心位置不再变化Step5:输出结果1.

7、2SK指标SSE算法是一种用于度量聚类效果的指标。误差平方和越小,表示越接近与它们的质心,聚类效果相应的也就越好。由于SSE是对误差去了平方,因此更加注重远离质心的点。其实有一种有效的方法可以降低SSE的值,但这种方法是增加簇的个数来降低SSE的值,而聚类算法的目标是保持聚类数目不变的情况下,来提高簇的个数,故该方法并不能有效的保证簇内对象相似,簇间对象相异[7]。而本文提岀的SK指标,是将SSE的值和K值相结合,从而取出最佳K值,来达到聚类的目的。定义3SSE的公式定义如式⑶所示:R2SSE=工工disg,Q(3)/=lxeCi其中G表示第i类数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。