实验二、聚类分析

实验二、聚类分析

ID:41708510

大小:95.99 KB

页数:9页

时间:2019-08-30

实验二、聚类分析_第1页
实验二、聚类分析_第2页
实验二、聚类分析_第3页
实验二、聚类分析_第4页
实验二、聚类分析_第5页
资源描述:

《实验二、聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实验二、聚类分析一、实验目的通过计算机编程实现并验证谱系聚类法的模式分类能力,了解和掌握最小距离归类原则在模式识别中的重要作用与地位。二.实验内容1)用C或Matlab实现谱系聚类算法,并对给定的样本集进行分类;2)通过改变实验参数,观察和分析影响谱系聚类算法的分类结果与收敛速度的因三、实验原理、方法和手段人类认识世界往往首先将被认识的对象进行分类,聚类分析是研究分类问题的多元数据分析方法,是数值分类学中的一支。多元数据形成数据矩阵,见下表1。在数据矩阵中,共有n个样品X],X2,…,xn(列向),p个指标(行向)。聚类分析有两种类型:按样品聚类或按变量(指标)聚类。聚类分析的基本思想是

2、在样品Z间定义距离,在变量Z间定义相似系数,距离或相似系数代表样品或变量之间的相似程度。按相似程度的大小,将样品(或变量)逐一归类,关系密切的类聚到一个小的分类单位,然后逐步扩大,使得关系疏远的聚合到一个大的分类单位,直到所有的样品(或变量)都聚集完毕,形成一个表示亲疏关系的谱系图,依次按照某些要求对样品(或变量)进行分类。⑴分类统计量----距离与相似系数①样品间的相似性度量——距离用样品点Z间的距离来衡量各样品Z间的相似性程度(或靠近程度)。设d(xi9Xj)是样品之间的距离,一般要求它满足下列条件:1)J(xf.,xy)>0,且〃(兀•,形J=0o旺=Xj;在聚类分析屮,■欧氏距离

3、2)d(xi9xj)=d(xpxi);3)d(xi9xj)<d(xi,xk)+d(xk,xJ).有些距离不满足3),我们在广义的角度上仍称它为距离。k=l■绝对距离pd(xi9xj)=^xik-xjkk=■Minkowski距离ink=l■Chebyshev距离rf(x,xy)=maxlx,-xyJ■方差加权距离航十(心-b)2d(xi,xj)=乙k=l1n1n其中=一£心,s:=—£(心一耳r■马氏距离1d(xi9Xj)=[(xt-Xj)TS_1(xt一xy)]2其中S是由样品心,兀2,・・・,Xj,...,XH算得的协方差矩阵:]H1n=一》乞,S=—工(旺一丘)(兀厂丘)r样

4、品聚类通常称为Q型聚类,其出发点是距离矩阵。①变量间的相似性度量——相似系数当对P个指标变量进行聚类时,用相似系数来衡量变量Z间的相似程度(或关联程度)。一般地,若C妙表示变量Xa“Z间的和似系数,应满足:1)%1<1且caa=l;2)=±1O©=CXp(cH0);3)c妙=%・c如的绝对值越接近于1,说明变量入,勺的关联越大。相似系数中最常用的是相关系数与夹角余弦。■相关系数变量礼,勺之间的相关系数定义为:工(私-心)(兀0-鬲)厂0=厂妙=I,奶圧嵐%-心)吃(5-鬲『Vi=l/=1事实上,印是变量心的观测值(兀“,兀2""・,兀心)与(兀10,兀20,•••,£")之间的相关系数。

5、■夹角余弦变量心宀的观测值(轧,兀2"・・・,兀“丿与(兀10,兀20,・・・,和)厂,其夹角余弦定义为:V/=i/=1变量聚类通常称为R型聚类。在R型聚类屮,相似系数短阵C是出发点,相似系数矩阵可以是相关矩阵,也可以是夹角余弦矩阵。⑵谱系聚类法①类间距离定义为简单起见,以i,j分别表示样品旺,厂,以山简记i,j之间的距离d(xi9x.).Gp,Gq分别表示两个类,设它们分别含有np,nq个样品。若类Gp小有样品旺,兀2,・・・,S,则其均值"称为类Gp的重心。类Gp与Gq之间的距离记为Dpq,冇多种多样泄义方式。■最短距离Dnn=minJ..Pq叫冋lJ■最长距离Dnn=maxd..P

6、QiwGpglJ■类平均距离■重心距离■离差平方和距离.nnnT尤=^7^(科一®(爲一®②类间距离的递推公式按照谱系聚类法的思想,先将样品聚合成小类,在逐步扩大为大类。设类Gr由类Gp、Gq合并所得,则Gr包含nr=np+nq个样品。问题:由Gp,Gq与其它类Gk(Vp,q)的距离计算G「与Gk(k#p,q)的距离,即建立类间距离的递推公式。■最短距离Drk=min{Dpk9Dqk}■最长距离Drk=m^{Dpk,Dqk}■类平均距离重心距离离差平方和距离③谱系聚类法的步骤谱系聚类法的步骤如下:Stepl阵:此时,Step2—n个样品开始时作为nnr+nk个类,计算两两Z间的距离,构成

7、一个对称距离矩D(o)=°dn...d}nbo“2"nDpq-dpq;选择D(°)屮的非对角线上的最小元素,设这个最小兀素是Dpq。此时,Gq={Xq}。将Gp,Gq合并成一个新类Gr={Gp,Gq}o在D(°)中消去Gp和GqGp={xp},所对应的行与列,并加入有新类G与剩下的其它未聚合的类间的距离所组成的一行和一列,得到一个新的距离矩阵D⑴,它是ml阶方阵;Step3从D⑴出发重复Step2的作法得D⑵,再由D⑵出发重复上述

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。