资源描述:
《聚类分析clusteranaly》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、ClusterAnalysis聚类分析(第2部分)(二)最长距离法(completelinkage,furthestneighbor)B2A2**B1A1**B3*样品间:欧氏距离类类间:两类间样品两两距离最长。即图中样品A2和B3之间的距离(三)中间距离法(medianmethod)最长距离夸大了类间距离,最短距离低估了类间距离。介于两者间的距离即为中间距离KLJM(四)中间距离法的变形——可变法(五)类平均法(averagelinkagebetweengroup)SPSS作为默认方法,称为between-groupslink
2、ageKLJM(六)可变类平均法(flexible-betamethod)类平均法的变型KLJM(七)重心法(centroidmethod)B2A2**B1A1**B3*类类间的距离用各自重心间的距离表示(八)Ward最小方差法(Ward’minimumvariancemethod)先将n个样品各自成一类,然后每次每缩小一类,每缩小一类离差平方和就要增加,选择使离差平方和增加(SSM-SSK-SSL)最小的两类合并,直至所有的样品归为一类为止。(九)八种系统聚类方法的统一以上聚类方法的计算步骤完全相同,仅类与类之间的定义不同。L
3、ance和Williams于1967年将其统一为:八种系统聚类法公式的参数系统聚类法的性质单调性中间距离法、重心法不具有单调性空间的浓缩与扩张不同聚类法作图,横坐标的范围可相差很大。最短距离法与重心法比较浓缩;可变类平均比较扩张;类平均法比较适中。有关问题几种聚类方法获得的结果不一定相同指标聚类采用相似系数,相似系数大或距离小则表示类间关系密切,为了统一,可采用以下公式变换。五、快速聚类法(quickclustermethodk-meansmodel)也叫动态聚类、逐步聚类、迭代聚类)样本量很大,用系统聚类法计算的工作量极大,
4、作出的树状图也十分复杂,不便于分析原理选择初始凝聚点根据欧氏距离将每个样品归类各类的重心代替初始凝聚点根据欧氏距离将每个样品归类,……直至分类达到稳定初始凝聚点initialclusterseeds;clustercenters自动选择必须给出允许分类的最大个数k(SAS中用MAXCLUSTERS=k(或MAXC=k))凭经验选择以初始凝聚点建立一个数据文件,在SAS的FASTCLUS过程的SEED=选择项中输入该数据文件六、变量聚类法原理与以上聚类法类似,只是将标准化后的变量视为“个体”,变量间的相关系数描述“个体”间的相似程
5、度。SAS中采用VARCLUS过程。七、小结与判别分析的区别(作用,数据要求?)聚类分析是一种探索性技术,对于同一问题,可获得多种结果,解释需要结合专业知识样品量大可采用快速聚类方法变量的形式?距离与相似系数?系统聚类常用方法?存在的问题分类数的确定专业知识聚类方法的选择试用多种方法,系统聚类与快速聚类相结合(一)SPSS聚类分析八、软件计算与实例分析1.系统聚类指定参与聚类的变量名和样品号Statistics聚类进度表相似矩阵样品或变量的分类情况Plot树状结构图冰柱图冰柱的方向Method聚类方法标准化变换亲疏关系指标Met
6、hod将分类结果存入数据文件中2.快速聚类选项读写凝聚点人为固定分类数ANOVA表,初始凝聚点等(二)SAS聚类分析样品聚类:PROCCLUSTERpseudoRSQUARESTDMETHOD=(AVE,AVERAGE,CEN,CENTROID,COM,COMPLETE,DEN,DENSITY,EML,FLE,FLEXIBLE,MCQ,MCQUITTY,MED,MEDIAN,SIN,SINGLE,TWO,TWOSTAGE,WAR,WARD);IDnational;PROCTREEHORIZONTAL;IDnational;变量聚
7、类:PROCVARCLUSCORRCENTROIDHIERARCHYMAXC=4;快速聚类:PROCFASTCLUSMAXC=4MAXITER=100;IDnational;资料预处理:PROCACECLUS;(ACECLUS(ApproximateCovarianceEstimationforCLUStering))如果要采用非欧式距离,SAS中可用宏程序(%distance)计算。或变换。数据为距离矩阵形式时,应在Data语句中说明,如“DATAa(TYPE=DISTANCE);”(见p202)TheEndAuthor:Ch
8、uanHuaYu2002.11,Xi’An,Chinayuchua@163.com