欢迎来到天天文库
浏览记录
ID:9374774
大小:230.69 KB
页数:4页
时间:2018-04-29
《核k一凝聚聚类算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第47卷第5期大连理工大学学报Vo1.47,No,52007年9月JournalofDalianUniversityofTechnologySeot.2007文章编号:1000一8608(2007)05一0763一04核k一凝聚聚类算法王宇‘,李晓利〔大连理工大学管理学院,辽宁大连116024)摘要:为解决k一means聚类算法和k一凝聚聚类算法对于非凸形状数据聚类正确率低和模栩核聚类算法(FKCM)收效速度慢的问题,将k一凝聚聚类算法与核函数方法相结合,在高维特征空间构造了新的核聚类算法—核k一凝果聚类算法,实现了k一凝聚聚类算法的核化.通过Matlab编
2、程进行数值实验,证明了核k一凝聚聚类算法在聚类的准确性、德定性、健壮性等方面较之k一menns聚类算法、k一凝聚聚类算法和FKCM有一定程度的改进.关键词:核;聚类;k一凝聚中图分类号:TP311文献标识码:A0引言出发,借助于文献「9〕提出的k一凝聚聚类算法,给出一个既为软聚类格式,又有很快收敛速度和较聚类(dustering)是数据挖掘中应用最多的少聚错数的核凝聚聚类算法一种技术,它在许多领域都有重要应用.聚类即按照某种相似程度的度量,使相似的数据点(样Ik一凝聚聚类算法本)归为一类,而不相似的样本归于不同的类比给定数据对象{二1,二2一,气}和固定整数
3、k,较经典的聚类方法是k一means算法,它的聚类原聚类问题的本质是极小化如下的价值函数(也称则是以数据的均值作为对象集的聚类中心,再计为目标函数):算数据对象到聚类中心的距离,依据最近原则完成聚类卜3〕.k一means算法简明、实用,但它的有J‘X,亡1,亡2,一亡五,一买‘职尸‘戈,灼,(,’效性很大程度上取决于数据点的分布情况.例如其中d(x,cl)是数据对象凡到聚类中心‘的距当各类样本的边界是线性不可分以及类分布为非离椭圆分布时,这种方法的聚类效果就比较差.为在文献[幻中,作者通过引进近似极大值函此人们提出许多不同的改进策略和聚类算法,来数的凝聚函数
4、(aggregatefunction)[,0〕,给出了如增加对数据点特征的优化.核方法由此被引人到下k一凝聚聚类算法:聚类之中川.给定参数r>0,。>0和k个初始聚类中心在结合核方法和聚类算法方面,Girolamils〕、c{0,,c;0,,一,心。,.张莉等困、孔锐等川做了开创性工作他们通过置h=。.把输人空间的数据非线性映射到高维特征空间,(1)对1二1,⋯,k,1=1,⋯,n计算增加了数据点的线性可分概率,即扩大数据类之exp(一}x:一c犷,}2/r)间的差异,在高维特征空间达到线性可聚的目的.P又x,c奋人))=核方法的思想又被文献〔8〕等进一步推
5、广到模糊习exp(一lx,一c{“,1’/r)聚类算法.文献[6、7」中给出的核聚类算法是一个硬划分格式,缺乏健壮性.文献〔8」中的模糊核艺p(x,才,)二时‘聚类算法虽然是软聚类格式,但模糊参数选取人叉p(、,呀‘,)为因素多,算法收敛速度慢.本文从聚类的本质收稿日期:2006一03一22;修回日期2007一07一09作者简介王宇.(1959一),男,博士,教授.万方数据大连理工大学学报第盯卷(2)若}Ic{‘+,,一c{‘,11+}Ic鑫为+‘,一c犷,Jl鑫艺艺户(。,1)户(r,1)K(。,,·)+⋯+}毋+1)一‘尸}!里(。,则停止,否则置人=(
6、7)h+1;冲,=呀人+,;r二叮2;转向(1).(习,(。,‘))’文献〔幻中还指出该计算格式是软聚类方所以,在特征空间,新的核函数声〔£,1)更新为法,每个。,是数据对象x的凸组合,并且当:~。声(1,1)=户(。(戈),。(己))=时,每一个c,均收敛于各自类的均值.。。{{一工}(、(xi,x)一:、(、,云,)+、(:,,己))}2核k一凝聚聚类算法依照核方法的思想,用非线性映射毋(·)把输召exp以一幸)‘K‘x‘,戈,一ZK‘兀,‘,+尺(‘了,‘了,’{人空间变换到一个高维特征空间,在该特征空间(8)扩展k一凝聚聚类算法,对变换后的特征矢量类
7、似k一凝聚聚类算法,即可推出高维特征空。(x)(乞二1,⋯,的进行聚类分析.间的核k一凝聚聚类算法.若在高维特征空间仍采用Euchd距离,则可核k一凝聚聚类算法的步骤如下:推出特征空间的凝聚目标函数为(1)选择类数k和迭代终止参数。任(0,1);J二(X,cl,c:,⋯,c。)二(2)选择凝聚参数r>。和核函数K及其参月击数;习(一dn(ZexP(一1!。(x)一必(ct)11’/r)))二=11o1(3)任选初始化类中心。(l二1,⋯,k);(2)(4)按式(4)计算每个样本在特征空间的核其中函数户(1,1)(1二1,⋯,二;1=1,⋯,k);}!中(x)
8、一公(c,)}1艺=K(戈,x‘)一ZK(x沟)+(
此文档下载收益归作者所有