聚类分析的方法.doc

聚类分析的方法.doc

ID:52137163

大小:243.50 KB

页数:16页

时间:2020-03-23

聚类分析的方法.doc_第1页
聚类分析的方法.doc_第2页
聚类分析的方法.doc_第3页
聚类分析的方法.doc_第4页
聚类分析的方法.doc_第5页
资源描述:

《聚类分析的方法.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、聚类分析的方法一、系统聚类法系统聚类分析法就是利用一定的数学方法将样品或变量(所分析的项口)归并为若干不同的类别(以分类树形图表示),使得每一类别内的所有个体之间具有较密切的关系,而各类别之问的相互关系相对地比较疏远。系统聚类分析最后得到一个反映个体间亲疏关系的H然谱系,它比较客观地描述了分类对象的各个体之间的差异和联系。根据分类日的不同,系统聚类分析可分为两类:一类是对变量分类,称为R型分析;另一类是对样品分类,称为Q型分析。系统聚类分析法基本步骤如下(许志友,1988)o(一)数据的正规化和标准化由于监测时所得到的数值齐变景之间相差较大,或因齐变量所取的度量单位不同,使数

2、值差别增人,如果不对原始数据进行变换处理,势必会突出监测数据屮数值较人的一些变量的作川,而消弱数值较小的另一些变量的作丿II,克服这种弊病的办法是对原始数据正规化或标准化,得到的数据均与监测时所取的度量单位无关。设原始监测数据为Xij(i=1,2,n;j=1,2,m;n为样品个数,m为变量个数),正规化或标准化处理后的数据为Zij(i=1,2,n;j=1,2,m)o1.正规化计算公式如F:Z一兀厂沙;J喇盼曲Xj;(7-32)(i=1,2,…,n;j=1,2,…,m)2.标准化计算公式如下:(7-33)(i=1,2,…,mj=1,2,…,m)其屮:(二)数据分类尺度计算为了对

3、数据勺Zij进行分类,须对该数据进一步处理,以便从屮确定出分类的尺度,下列出分类尺度计算的四种方法。1•相关系数R两两变景间简单相关系数定义为:R・・=忆⑵-Wjk可2Vi(=i(7-34)其屮一般用于变量的分类(R型)。有一1<1且氏■愈接近1时,则此两变量愈亲近,R*愈接近・1,则关系愈疏远。2相似系数吊相似系数的意义是,把每个样品看做m维空间屮的一个向量,n个样品相当于m维空间屮的n个向量。第i个样品与第j个样殆之间的相似系数是用两个向量之间的夹角余弦來定义,BP:E_z灰Sij’osQ厂一Vk-1k-1(7・35)(i,j=1,2,...,m)常用于样品间的分类

4、(Q型)。有一仁令0,且可的值愈大,愈接近I,两个样品关系愈亲近。1.欧氏距离°,欧氏距离D■含义为,对每个样品,把它的m个因索(变量)的值看做m维空I'可屮的一个点,贝山2个样品就是7n维系空间屮n个点,则第i个样品与第j个样品之间的距离2"Dij厂ZQ为:g(7-36)(j,j=1,2,…,m)—•般用做样品间的分类。显然有Os。叱1,距离D■愈小,表示两个样品愈亲密,反之则疏远。2.斜交空间距离De由于变量间往往存在程度不同的相关关系,以欧氏距离计算距离,会使结果发生偏差,因而对样品i,j之问的距离可用更广义的斜交空间距离作为分类尺度。[mmDiij=、冈艺⑴让芒上)V

5、k=l1^1(7-37)(i,j=1,2,n)其屮(Zil•朮刼=广VFli=l(k,L=1,2,...,m)一般用于样品的分类。有osWg,且距离g愈小表示两个样品愈亲密。(三)分类树形图的绘制绘制分类树形图的法则是使相似程度高的样本或样本所代表的类优先集屮在一起,用较短的线联结起来,而相似程度低的样本或类之间川较长的线联结。绘制分类树形图对采川两种方法。1.-•次形成分类法首先选岀相关系数最人的元索对(或距离矩阵中最小的元索对),然厉选岀次人的元索对(或距离矩阵屮次小的元索对),依次类推。选出元索对厉,将各元索对按卜•列准则连接成群:若两个元索在已形成的群屮没有出现过,则

6、形成一个独立的新群;若两个元索中有一个是在已经分好的群中岀现过,则另一个加入该群;若两个元索都在已分好的两群屮,则把两群连一起;若两个元索都在同一•群屮,则这对元索就不再作处理。这样反复进行,直到所有的元素都分群完毕为止,形成一•个树形图。2逐步形成分类法假设分类是对样品进行的,且采用的分类尺度是距离。从距离矩阵屮选出最小的元素D*,这说明第k个样品与第L个样品距离最近(关系最亲密)应首先归入一•组,然后按下而方法进行计算:首先,把第五个样品与第L个样殆的相应的各个变量取平均值,用它代替第k个样品,并取消第j个样品,形成新的样品数据,它比归并前的样品数目减少一个(当为组合变最

7、时应取加权平均值)。其次,根据新的样品数据,重新计算距离矩阵。再从新的距离矩阵屮选出最小的D纶,说明新的样殆数据屮第L个样品与第匸个样品距离最近(关系最密切),应将它们归为一组,然厉重复进行上述(1)、(2)、(3)步工作。以上各步重复进en-1次则全部样品最后归并为一组,最后按归组的先后顺序及相应的距离人小作出分类树形图。(四)类别的划分对于已建立的相似性矩阵,即可根据不同的且宜信水平进行分类。分类时应先求出R的a截矩阵R*o(7-38)一皿j」NxN显然吋,i与j应归为同一类,否则为不同类。対于不同

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。