第章 聚类分析(精品).doc

第章 聚类分析(精品).doc

ID:51386742

大小:166.00 KB

页数:8页

时间:2020-03-23

第章 聚类分析(精品).doc_第1页
第章 聚类分析(精品).doc_第2页
第章 聚类分析(精品).doc_第3页
第章 聚类分析(精品).doc_第4页
第章 聚类分析(精品).doc_第5页
资源描述:

《第章 聚类分析(精品).doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、5.2聚类准则函数在样本相似性度量的基础上,聚类分析还需要一定的准则函数,才能把真正属于同一类的样本聚合成一个类型的了集,而把不同类的样本分离开来。如果聚类准则函数选得好,聚类质量就会高。同时,聚类准则函数还可以用来评价一种聚类结果的质量,如果聚类质量不满足要求,就要重复执行聚类过程,以优化结果。在重复优化中,可以改变相似性度量,也可以选用新的聚类准则。1.误差平方和准则(最常用的)假定有混合样本X={apx2,….,x„},采用某种相似性度量,X被聚合成c个分离开的子集知/,…,X.,每个子集是一个类型,

2、它们分别包含厲,“2,……,化个样本。为了衡量聚类的质量,采用误差平方和厶聚类准则函数,足义为:C竹式[1竹为类型11「样木的均值:mi=丄,j=1,2,....,conjj=竹是c个集合的中心,可以用来代表c个类型。人是样本和集合中心的函数。在样本集X给定的情况下,人的取值取决于c个集合中心。厶描述"个试验样本聚合成c个类型时,所产生的总误差平方和。•/「越小越好。最小方差划分:寻找人最小的聚类结果,也就是在误差平方和准则下的最优结果。误差平方和准则适用于各类样本比较密集且样本数目悬殊不大的样木分布。

3、例如:上图的样本分布,共有3个类型,各个类型的样本数目相差不多(10个左右)。类内较密集,课差平方和很小,类别之间距离远。注意:如果不同类型的样本数目相差很大,采用误差平方和准则,下面进一步说明上述问题:如下图所示:x5Gw2o虚线为正确类型区分域,实线为采用误差平方和最小准则时的类别区分。[4虚线划分时:W]:X

4、={兀

5、,兀2,兀3'兀},m=7工忑=(0,0)丁4k=]w2:X2={x5}9m2=x5=(2,0)JCi=工11忑-"『+工%-加21卩=4GX2实线划分时:W]:X]={兀],兀2,兀

6、3}'"=+工忑=(-

7、,0/3妇13w2:X2={x4,x5}m2=-工无=(1.5,0)丁X2JC1=工吠-和卩+工II忑—%『=§+■!■=出=3」7X

8、xkeX2326所以人>JC2,如果按误差平方和准则聚类将得到错误结果。1.加权平均平方距离和准则定义:加权平均平方距离和准则J严乞匕0。式中:S;是类内样本间平均平方距离。5;=—^—^工ll—xll所有的样本之间距离的平均值。勺(竹_i)HX,中的样本个数“,,冷中的样本两两组合共有空异种。£E"a-xII2表示所有样本之间距离之和。xeXjxe

9、Xj什为匕类的先验概率,可以用样本数忖勺和样本总数目71来估计。II;P=—,j=1,2,....,cn因此:丿产丄立2厂S;丿IJJ,重新讨论误差平方和准则中所举例子。5个样木,如上图所不西~兀4丘忙x5ew2oA]=(0,-1)r,x2=(0,l)T9心=(-K0)7,兀=(tO)?,兀5=(2Q)7o虚线划分时::X,={apx2,a3,a4),S;=-(4+2+2+2+2+4)=-卜2.1363心X-实线划分时:導18W

10、:X]={坷9兀29兀3},S]=_(4+2+2)=_.1吵2:X?={x4,

11、X5},s2=-(1)=1OJt=-X-+/258^xl=235虽然儿5但已较接近。所以,当各类样木数口相差悬殊时,使用加权平均平方距离和准则,要比使用误差平方和准则容易得到正确聚类结果。同人一样,厶越小,样本类内越密集。以聚合中心为极夫值的局部区域密度越高,聚类结果越好。1.类间距离和准则类间距离和可用于描述聚类结果的类间距离分布状态。它定义为:Jb=工(竹一加八加/一加)>1加权类InJ跖禺和:厶=£匚•(加i-加)丁(卩-加)八1式「卩,竹为比类型的样木均伯•向量:加/=丄^xi1J=t2,..njJ

12、=1血为全部样木的均值向量:m=—^xk。什为匕•类型的先验概率,可以用勺来估计。n对J“两次JlU题W]/%,決I可距禺常用jh=O1-加2)'(加I-加2)计算。两类问题的加权类间距离和:]2]Jb=—Vn.-(m-m)1(w.-m)=—(n}•卅-n}•w7•加]+n2-ml•叫_山•卅•g-(W)7-/???)/?/)+3^(〃#n~n将刃-m=n,•“+n2・阻代入上式,有•=—[(^)-加2)5]-加2)〕=P}'P2Jbn类间跖肉和准则描述不同类型之间的分离程度,所以人的值越大,表示各类之间分

13、离性好,聚类质量高。1.散射矩阵为了对聚类质量有一个全面的描述和考核标准,可以通过散射矩阵引导出一些准则函数,它们不但反映同类样本的聚集程度,而且也反映不同类之间的分离程度。假定混合样木集X的“个样本被聚集成c个类型的子集Xj,每个子集有©个样木,则类内散射矩阵孔定义为::S、£Pj・Sj其中S,为某一个类型的类内散射矩阵:s.i=右工(兀h-®)(田-加丿岀表示类型Wj的第k个样本,j=1,2,...,co类间

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。