资源描述:
《聚类数的确定_张逸清》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、42计算机与数字工程第35卷*聚类数的确定张逸清刘文才(重庆大学自动化学院重庆400044)摘要提出一种基于一个调整后的准则函数最小化来确定聚类数的算法,算法中把邻近值看成一个尺度参数,通过改变尺度参数的范围值获得聚类中心的数量。最后通过对UCI机器学习数据库中的几个数据库进行实验,证实此方法是比较有效的。关键词聚类分割等级空间中图分类号TP301.6心的数量。在粗糙的级别时,所有的数据点分别形1引言成一个聚类,每一个聚类只有一个数据点。在决定聚类是知识发现和数据挖掘领域中一个重要正确的聚类数的算法中必须结合数
2、据的等级空间[1]的研究课题。所谓聚类是将物理或抽象的集合表示法。本文提出一种新的决定聚类数的算法,它分组成为类似的对象组成的多个类的过程。由聚是基于在目标函数(1)中加入一个调整数据项的类所生成的簇是一组数据对象的集合,这些对象与算法。这个调整数据项的作用是将其他聚类中心同一个簇中的对象彼此相似,与其他簇中的对象相(w)和当前聚类中心y拉近,这个当前聚类中心是指异。当分割是分离的,那它们属于排他性分类(每(u)离输入样本x最近的聚类中心。这样做等价于个数据点只属于一个聚类)。相反,当分割是交叠在当前聚类中心的空间中实现等级空间理论。的,那它们属于非排他性分类。聚类方法中用来实
3、2调整后的目标函数现排他性分类大致上可以分为基于划分的方法和基于层次的方法。我们提出的调整后的目标函数如下所示:mnmn最常用的基于划分的方法是K-means算(i)(j)(i)(j)2J=!!f(x,y)∀x-y∀+!!f2[2](i)(i)i=1j=1i=1j=1法。给定n个样本x:i=1,2,,m,x(i)(j)(j)(w)2(x,y)∀y-y∀(2)nR,k-means可以通过最小化给定的目标函数来(i)(j)这里,如前述,f(x,y)是一个指示函数,当确定k个聚类中心的位置,该目标函数为:(i)(l)2j=argminl∀x-y∀时该指示函数的值为1,mnJ=!
4、!f(x(i),y(j))∀x(i)-y(j)∀2(1)(i)(j)i=1j=1其他情况下指示函数的值为0。f2(x,y)也是(i)(j)(j)(i)这里,∀#∀表示一种距离度量,f(x,y)是一一个指示函数,当yNy(w),w=argminl∀x-(i)(l)2(l)2(w)个指示函数,当j=argminl∀x-y∀时该指y∀,Ny(w)是聚类中心y的邻域。示函数的值为1,其他情况下指示函数的值为0。这个目标函数自身包括两个部分。第一个部基于层次方法对给定的数据对象集合进行层分使得每一个输入样本到离它们最近的聚类中心次的分解。根据层次的分解如何形成,层次的方法的平方距离最小化
5、。第二个部分,也就是目标函数可以分为凝聚和分类两种。的调整项,进一步要求聚类中心和它领近的聚类中不管用哪一种聚类方法,都需要决定聚类的数心的平方距离最小化。为了控制这两个数据项在[3]量k。在基于层次的聚类方法中,可以理解为决目标函数中所占的相对比例,通常在以上的目标函定在哪一个级别或者层次停止算法。决定聚类中数中需要一个拉格朗日乘子。所以,我们在这里引心的数量是聚类中一个中心问题,必须解决。入一个乘子,用来表示,它根据每一个聚类中心本文基于等级空间理论的概念来决定聚类中的不同而不同。*收到本文时间:2006年3月27日作者简介:张逸清,男,研究生,主要从事人工智能,数据挖掘
6、方面的研究。刘文才,男,教授,主要从事计算机控制、自适应与智能控制、管理信息系统等方面的研究工作。第35卷(2007)第2期计算机与数字工程43当初始的聚类数大于必要的聚类数时,目标函Begin数中的第二个数据项就会迫使聚类中心彼此靠近。initialkprototypey[1k]forNeighborhood=mintomaxdo特别地,当Ny(w)的值很小时,每一个聚类中心都可Counter1[1k]=0,Counter2[1k]=0以自由的分布,只要使得目标函数中的第一个数据1y[1k]=0,2y[1k]
7、=0项最小就可以了,但是当Ny(w)的值很大时,聚类中fori=1tomdo心就会倾向于彼此靠近。(i)/*离x最近的聚类*/m(i)(i)(l)2定义J=!J,我们可以得到更新聚类中心w=argminl∀x-y∀i=1(w)(w)(i)(w)1yo=1yo+(xo-yo);o=1,2,p的迭代方法。所以,给定一个当前聚类中心w,它(i)Counter1(w)=Counter1(w)+1离给定样本x最近,则聚类中心w可以根据下面(w)/*y领域值内的聚类*/的式子进行更新:forj=1