欢迎来到天天文库
浏览记录
ID:48432617
大小:97.85 KB
页数:8页
时间:2019-11-22
《第章聚类分析.docx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、5.2聚类准则函数在样木相似性度量的基础上,聚类分析还需要一定的准则函数,才能把真正属于同一类的样本聚合成一个类型的子集,而把不同类的样木分离开来。如果聚类准则函数选得好,聚类质量就会高。同时,聚类准则函数还可以用来评价…种聚类结果的质量,如果聚类质量不满足要求,就要重复执行聚类过程,以优化结果。在重复优化中,可以改变相似性度量,也可以选用新的聚类准则。1.误差平方和准则(最常用的)假定有混合样本X=g,X2,••••••舛},采用某种相似性度量,X被聚合成c个分离开的子集八…儿,每个子集是-个类型,
2、它们分别包含….,化个样本。为了衡量聚类的质量,采用误差平方和人聚类准则函数,定义为:J=1"1式中“为类型W/中样木的均值:叫=丄,j=1,2,...”conjy=i竹是c个集合的中心,可以用来代表c个类型。人是样本和集合中心的函数。在样本集X给定的情况下,心的取值取决于C个集合中心。人描述"个试验样本聚合成c个类型时,所产生的总误差平方和。人越小越好。最小方差划分:寻找人最小的聚类结果,也就是在误差平方和准则下的最优结果。误差平方和准则适用于各类样本比较密集且样本数目悬殊不大的样本分布。例如:上图
3、的样本分布,共有3个类型,各个类型的样本数目相差不多(10个左右)。类内较密集,误差平方和很小,类别之间距离远。注意:如果不同类型的样本数冃相差很大,采用误差平方和准则,如下图所示:下面进一步说明上述问题:虚线为正确类型区分域,实线为采用误差平方和最小准则时的类别区分。虚线划分时:W
4、:X(={xpx2,x3,x4},"=丁£耳=(0,0)丁4*=iw2:X2={x5}9fn2=x5=(2,0)Jcx=刃兀心wX]k-tn}II2+工IIxk-m2II2=4xkWX?实线划分时:W]:X]={xpx2
5、,x3),的二斗£无=(~p0)r3a=i3w2:X2={x,]3心}‘tn2=-工无=(1.5,0/xkkmII+刃耳^2II_Q+o-r-3・17mg326所以g>J“,如果按误差平方和准则聚类将得到错误结果。2・加权平均平方距离和准则定义:加权平均平方距离和准则J严乞p「s;。/=!式中:S;是类内样本间平均平方距离。S;=「〒工Zllx-xll2,所有的样本之间距离的平均值。X,中的样本个数勺,X,中的样本两两组合共有空戸种。乙E工
6、
7、兀-xif表示所有样本Z间距离Z和。xeX)xeXj鬥为
8、匕类的先验概率,可以用样本数1=1®和样本总数H77來估计。n;Pj=——,j=12・・・・,cn因此:Jl=-Xnj'sj用人重新讨论误差平方和准则中所举例子。5个样本,如上图所示州~兀4訥,心“2。坷=(0,-1)7',兀2=(0,1)7,兀3=(-1,0)卩,%4=(l,0)r,x5=(2,0)ro虚线划分时:w1:X,={xpx2,x3,x4},S;=-(4+2+24-2+2+4)=-63心x*2.13实线划分时:^:Xx={xvx2,x3}9S:=*(4+2+2)=
9、叫:x?={“,兀5},
10、s;=:(i)=i0J,=-x-+-xl=2,2535虽然J,11、:巧为匕类型的先验概率,可以用巳来估计。n对于两类问题W]/%,类冋距禺常用Jb=O]-也2)『(加1-加2)计算。两类问题的加权类间距离和:]2]Jh=—Vz?.--m)T-tn)=_(牛•rn[•mx-nA•mT•mx+n2••m2-心•mT•m2n行n1U—(加:-)777j+(m;-n_n将〃•加=nl-ml+n2化代入上式,有:=巴>_Mg)气加1_m2)=P'P2'Jbn类间距离和准则描述不同类型之间的分离程度,所以厶的值越大,表示各类Z间分离性好,聚类质量高。4.散射矩阵为了对聚类质12、量有一个全面的描述和考核标准,可以通过散射矩阵引导岀一些准则函数,它们不但反映同类样本的聚集程度,而且也反映不同类之间的分离程度。假定混合样本集X的〃个样本被聚集成c个类型的子集勒,每个子集有©个样木,则类内散射矩阵兀定义为:①S仝Pj・Sj戶1其中S,为某一个类型的类内散射矩阵:Sj=丄工(屮-加/)(屮-叫丫屮表示类型匕的第k个样本,7=1,2,...,Co类间散射矩阵%定义为:②S”=£号•(®--m)T>1式中,®为各类型的均值向量,加为全部样本
11、:巧为匕类型的先验概率,可以用巳来估计。n对于两类问题W]/%,类冋距禺常用Jb=O]-也2)『(加1-加2)计算。两类问题的加权类间距离和:]2]Jh=—Vz?.--m)T-tn)=_(牛•rn[•mx-nA•mT•mx+n2••m2-心•mT•m2n行n1U—(加:-)777j+(m;-n_n将〃•加=nl-ml+n2化代入上式,有:=巴>_Mg)气加1_m2)=P'P2'Jbn类间距离和准则描述不同类型之间的分离程度,所以厶的值越大,表示各类Z间分离性好,聚类质量高。4.散射矩阵为了对聚类质
12、量有一个全面的描述和考核标准,可以通过散射矩阵引导岀一些准则函数,它们不但反映同类样本的聚集程度,而且也反映不同类之间的分离程度。假定混合样本集X的〃个样本被聚集成c个类型的子集勒,每个子集有©个样木,则类内散射矩阵兀定义为:①S仝Pj・Sj戶1其中S,为某一个类型的类内散射矩阵:Sj=丄工(屮-加/)(屮-叫丫屮表示类型匕的第k个样本,7=1,2,...,Co类间散射矩阵%定义为:②S”=£号•(®--m)T>1式中,®为各类型的均值向量,加为全部样本
此文档下载收益归作者所有