《聚类与判别分析》PPT课件

《聚类与判别分析》PPT课件

ID:39063821

大小:1.86 MB

页数:63页

时间:2019-06-24

上传者:U-145848
《聚类与判别分析》PPT课件_第1页
《聚类与判别分析》PPT课件_第2页
《聚类与判别分析》PPT课件_第3页
《聚类与判别分析》PPT课件_第4页
《聚类与判别分析》PPT课件_第5页
资源描述:

《《聚类与判别分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

第五章聚类与判别分析(一) 主要内容聚类及判别分析快速样本聚类分层聚类判别分析 5.1聚类与判别概述聚类和判别都是分类学的基本方法,而分类学是人类认识世界的基础科学。掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义。聚类有两种基本的方法:快速样本聚类和分层聚类。判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法。 5.1聚类与判别概述5.1.1聚类分析聚类分析(ClusterAnalysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类的个体差异很大。根据分类对象不同分为样品聚类和变量聚类。样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件(cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。变量聚类在统计学中有称为R型聚类。反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。 5.1聚类与判别概述5.1.1聚类分析根据分类对象的不同,样品(观测量)聚类和变量聚类两种:样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。 5.1聚类与判别概述5.1.2判别分析判别分析(Discriminant)是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家、植物学家对动物、植物如何分类的研究和某个动物、植物属于哪一类、哪一目、哪一纲的判断等。 5.1聚类与判别概述5.1.3Classify的功能SPSS中进行聚类和判别分析的统计过程,是由菜单“Analyze”令“Classify’”导出的。选择“Classify’”,可以显示三个过程命令:(1)K-MeansCluster进行快速聚类过程。(2)HierarchicalCluster进行样本聚类和变量聚类过程。(3)Discriminant进行判别分析过程。 5.2快速聚类5.2.1快速聚类的概念K-MeansCluster执行快速样本聚类,使用k均值分类法对观测量进行聚类。可以完全使用系统默认值执行该命令,也可以对聚类过程设置各种参数进行人为的干预。例如,可以事先指定把数据文件的观测量分为几类;指定使聚类过程中止的判据,或迭代次数等。进行快速样本聚类首先要选择用于聚类分析的变量和类数。参与聚类分析的变量必须是数值型变量,且至少要有一个。为了清楚地表明各观测量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标识变量,例如编号、姓名之类的变量。聚类必须大于等于2,但聚类数不能大于数据文件中的观测量数。 5.2快速聚类5.2.1快速聚类的概念如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。那么可以由系统首先选择k个观测量(也可以由用户指定)作为聚类的种子,n个变量组成n维空间。每个观测量在n维空间中是个点。K个事先指定的观测量就是k个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中;形成第一次迭代形成的k类。根据组成每一类的观测量计算各变量均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判据要求时,迭代停止,聚类结束。从上述分析过程可以看出,K-MeansCluster不仅是快速样本聚类过程,而且是一种逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。 5.2快速聚类5.2.1快速聚类的概念例1为研究儿童生长发育的分期,调查1253名1个月至7岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。资料作如下整理:先把1个月至7岁划成19个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。 5.2快速聚类5.2.1快速聚类的概念例1 5.2快速聚类5.2.1快速聚类的概念例1激活“Analyze”菜单选“Classify”中的“K-MeansCluster”项,弹出K-MeansClusterAnalysis对话框(如图所示)。从对话框左侧的变量列表中选x1、x2、x3、x4,点击向右的按钮使之进入Variables框;在NumberofClusters(即聚类分析的类别数)处输入需要聚合的组数,本例为4;在聚类方法上有两种:Iterateanddassify指先定初始类别中心点,而后按K-means算法作叠代分类;Classifyonly指仅按初始类别中心点分类,本例选用前一方法。 5.2快速聚类5.2.1快速聚类的概念例1表1、表2显示:首先系统根据用户的指定,按4类聚合确定初始聚类的各变量中心点,未经K-means算法叠代,其类别间距离并非最优;经叠代运算后类别间各变量中心值得到修正。表3对聚类结果的类别间距离进行方差分析,方差分析表明,类别间距离差异的概率值均<0.001,即聚类效果好。 5.2快速聚类5.2.1快速聚类的概念例1这样,原有19类(即原有的19个月份分组)聚合成4类,第一类含原有1类,第二类含原有1类,第三类含原有2类,第四类含原有15类。具体结果系统以变量名QCLI存于原始数据文件中 5.3分层聚类5.3分层聚类调用此过程可完成系统聚类分析。在系统聚类分析中,用户事先无法确定类别数,系统将所有例数均调入内存,且可执行不同的聚类算法。系统聚类分析有两种形式。一是对研究对象本身进行分类,称为Q型举类;另一种是对研究对象的观察指标进行分类,称为R型聚类。变量聚类,是一种降维的方法,用于在变量众多时寻找有代表性的变量,以便在用少量、有代表性的变量代替大变量集时,损失信息很少。 5.3分层聚类5.3分层聚类通常情况下,在聚类进行之前,Proximitice过程先根据反映各类特性的变量对原始数据进行预处理,即利用标准化方法对原始数据进行一次转换,并进行相似性测度或距离测度。然后Cluster过程根据转换后的数据进行聚类分析。在SPSSforWindowS中,分层聚类各方法都包含了Proximitice过程对数据的处理和Cluster过程对数据的分析。给出的统计量可以帮助用户确定最好的分类结果。Cluster过程可以通过Plot选择项给出两种统计图:Dendrogram树形图Icicle冰柱图。Cluster过程的输出项可以选择,还可以建立新变量,把聚类结果即每个个体被分配到的类号作为新变量的值保存到当前的工作数据文件中。 5.3分层聚类例2现在测定了29名儿童的X6血红蛋白(g/100ml)与微量元素X1钙、X2镁、X3铁、X4锰、X5铜(pg/100ml)测定结果如表所示。由于微量元素的测定成本高、耗时长,故希望通过聚类分析(即R型指标聚类)筛选代表性指标,以便更经济、快捷地评价儿童的营养状态。 5.3分层聚类例2数据见表 5.3分层聚类例2数据见表 5.3分层聚类例2从对话框左侧的变量列表中选x1、x2、x3、x4、x5、x6,点击向右的箭头按钮使之进入Variable(s)框;在Cluster处选择聚类类型,其中Cases表示观察对象聚类,Variables表示变量聚类,选择Variables点击‘Statistics”按钮,弹出HierarchicalClusterAnalysis:Statistics对话框,选择Proximtymatrix,要求显示欧氏不相似系数平方矩阵 5.3分层聚类例2点击“Plots”按钮弹出HierarchicalClusterAnal}sis:Plots对话框,选择Dendrogram项。点击“Method”按钮弹出HierarchicalClusterAnalysiS:Method对话框,系统提供了7种聚类方法供用户选择,本例选择类间平均链锁法(系统默认方法)。选择距离测量方法,系统提供了8种形式供用户选择,本例选用Pearsoncorrelation 5.3分层聚类例2表1是数据处理的基本信息;表2是欧式不相似系数平方矩阵。 5.3分层聚类例2表3是聚类过程表,显示x3和x6先合并,之间的相关系数最大0.864;接着是x1和x2合并相关系数是0.745;依次类推;图1是聚类为5类的垂直冰柱图。 5.3分层聚类例2图2是树形聚类图。 5.3分层聚类测度方法有计算连续变量的距离、离散变量的不相似性、二值变量的距离或不相似性。连续变量距离计算方法有:欧氏距离:(∑(Xi-Yi)2)1/2,即两项间的差是每个变量值差的平方和再平方根,目的是计算其间的整体距离即不相似性。距离平方:∑(Xi-Yi)2,目的是减少误差。相似测度:∑(XiYi)2/((∑Xi2)(∑Yi2)),即两项间的相似性是向量间的余弦,值域-1—1,用0值表示相互垂直。皮氏相关:∑(ZXiZYi)2/(n-1),即两项间的相似性是向量间的线性相关性,范围-1—1,0值表明非线性相关。切氏距离:Max|Xi-Yi|,即两项间的距离是变量间最大差值的绝对值。布氏距离:∑|Xi-Yi|,两项间的距离是每个变量值之差的绝对值总和。明氏距离:(∑|Xi-Yi|p)1/p。自定距离:(∑|Xi-Yi|p)1/r。若r=p,则为明氏距离。 5.4判别分析判别分析是根据观察或测量到若干变量值,判断研究对象如何分类的方法。如动物、植物分类、环境污染综合指数等都可以用判别分析来解决。进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值。判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数,使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小 5.4判别分析Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数,并把各观测量的自变量值回代到判别函数中,根据判别函数对观测量所属类别进行判别。对比原始数据的分类和技判别函数所判的分类,给出错分概率。判别分析可以根据类间协方差矩阵,也可以根据类内协方差矩阵。每一已知类的先验概率可以取其值相等即等于l/mi,m为已知类数,也可以与各类样本量成正比。判别分析可以根据要求,给出各类观测量的单变量的描述统计量;线性(费雪Fisher)判别函数系数或标准化及本标准化的典则判别函数的系数;类内相关矩阵,类内、类间协方差矩阵和总协方差矩阵;给出按判别函数判别(回代)的各观测量所属类别;带有错分率的判别分析小结;还可以根据要求生成表明各类分布的区域图和散点图。 5.4判别分析判别分析采用较多的是Fisher判别法。所谓Fisher判别法,就是一种先投影的方法。考虑只有两个(预测)变量的判别分析问题。如果是是多类,则这些数据是多位空间的点,只要给定了中心(几个类别),定义了如何计算距离,就可以得到任何给定的点(企业)到这三个中心的三个距离。假定这里只有两类。数据中的每个观测值是二维空间的一个点。这里只有两种已知类型的训练样本。其中一类有38个点(用“o”表示),另一类有44个点(用“*”表示)。按照原来的变量(横坐标和纵坐标),很难将这两种点分开。于是就寻找一个方向,也就是图上的虚线方向,沿着这个方向朝和这个虚线垂直的一条直线进行投影会使得这两类分得最清楚。可以看出,如果向其他方向投影,判别效果不会比这个好。有了投影之后,再用前面讲到的距离远近的方法来得到判别准则。这种首先进行投影的判别方法就是Fisher判别法。 5.4判别分析-4-20246-4-3-2-10123 5.4判别分析5.4判别分析概念例3为研究舒张期血压和血浆胆固醇对冠心病的作用,某医师测定了50一59岁冠心病人15例和正常人16例的舒张压和胆固醇指标,结果如表所示,试作判别分析,建立判别函数以便在临床中用于筛选冠心病人。 5.4判别分析例3数据 5.4判别分析例3数据舒张压(x1)和胆固醇(x2),result(冠心病人1,正常人2) 5.4判别分析5.4判别分析概念例3definerange对话框,min填1,max填2 5.4判别分析5.4判别分析概念例3statistics对话框选means和unstandardized 5.4判别分析例3在classify对话框,选combinedgroups要求合并判断结果。选casewiseresults要求逐一回带重新判断。选summarytable要求进行总体评判 5.4判别分析例3要求将回代结果保存在原始数据中 5.4判别分析例3表1是数据分析过程,表2是基本统计信息。系统处理数据简明表;数据按变量RESULT分组,共有31个样本作为判别基础数据进入分析,其中第一组15例,第二组16例。同时,分组给出各变量的均数(means)与标准差(standarddeviations) 5.4判别分析5.4判别分析概念例3表3以后6张表是典型判别函数特征值表 5.4判别分析例3表9和表10是判别函数对观测量分类的结果 5.4判别分析例3表11是对原始数据逐一进行判别分析。打*的为错判。 5.4判别分析例3表12是分类结论。冠心病人正常判别12人,错判3人,正常人正确判断13人,错判3人。即病人组判定正确率为80%。0%,正常人组81.3%,总体为80.6%的正确率 5.4判别分析例3根据给出的模型参数,得到判别方程为D=0.638x1+0.800x2-10.753.式中x1为舒张压,x1为胆固醇。两类的判别以0为分界点。小于0为正常人,大于0为病人。 5.4判别分析例3表13是保存在原属数据中的回代结果。 5.4判别分析例4鸢尾花数据(花瓣,花萼的长宽)5个变量:花瓣长(slen),花瓣宽(swid),花萼长(plen),花萼宽(pwid),分类号(1:Setosa,2:Versicolor,3:Virginica)(data14-04) Statistics→Classify→Discriminant:(1)Variables:independent(slen,swid,plen,pwid)Grouping(spno)Definerange(min-1,max-3)(2)Classify:priorprobability(Allgroupequal)usecovariancematrix(Within-groups)Plots(Combined-groups,Separate-groups,Territorialmap)Display(Summarytable)(3)Statistics:Descriptive(Means)FunctionCoefficients(Fisher’s,Unstandardized)Matrix(Within-groupscorrelation,Within-groupscovariance,Separate-groupscovariance,Totalcovariance)(4)Save:(Predictedgroupmembership,DiscriminantScores,Probabilityofgroupmembership)5.4判别分析 鸢尾花数据(数据分析过程简明表)5.4判别分析 鸢尾花数据(原始数据的描述)5.4判别分析 鸢尾花数据(合并类内相关阵和协方差阵)5.4判别分析 鸢尾花数据(总协方差阵)5.4判别分析 鸢尾花数据(特征值表)Eigenvalue:用于分析的前两个典则判别函数的特征值,是组间平方和与组内平方和之比值.最大特征值与组均值最大的向量对应,第二大特征值对应着次大的组均值向量 典则相关系数(canonicalcorrelation):是组间平方和与总平方和之比的平方根.被平方的是由组间差异解释的变异总和的比.5.4判别分析 鸢尾花数据(Wilks’Lambda统计量)检验的零假设是各组变量均值相等.Lambda接近0表示组均值不同,接近1表示组均值没有不同.Chi-square是lambda的卡方转换,用于确定其显著性.5.4判别分析 鸢尾花数据(有关判别函数的输出):标准化的典则判别函数系数(使用时必须用标准化的自变量)5.4判别分析 典则判别函数系数5.4判别分析 鸢尾花数据(有关判别函数的输出)这是类均值(重心)处的典则判别函数值:这是典则判别函数(前面两个函数)在类均值(重心)处的值5.4判别分析 鸢尾花数据(用判别函数对观测量分类结果)先验概率费歇判别函数系数把自变量代入三个式子,哪个大归谁.5.4判别分析 TerritorialMapCanonicalDiscriminantFunction2-12.0-8.0-4.0.04.08.012.0趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌12.01223122312231223122312238.01223122312231223122312234.0122312231223122312231223*.0*122312*231223122312231223-4.0122312231223122312231223-8.0122312231223122312231223-12.01223趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌趄蝌蝌蝌蝌-12.0-8.0-4.0.04.08.012.0CanonicalDiscriminantFunction1SymbolsusedinterritorialmapSymbolGroupLabel-------------------------------11刚毛鸢尾花22变色鸢尾花33佛吉尼亚鸢尾花*Indicatesagroupcentroid鸢尾花数据TerritoryMap(区域图)CanonicalDiscriminateFunction1VersusCanonicalDiscriminateFunction2三种鸢尾花的典则变量值把一个典则变量组成的坐标平面分成三个区域.*为中心坐标. 鸢尾花数据(预测分类结果)可以看出分错率5.4判别分析 作业习题1.现有16种饮料相关的数据如表所示。试对这些饮料进行分类,并分析价格与其他三个饮料特征的关系 作业习题2.现有瓦韦属薄叶组各种一些形状的平均值,是通过分层聚类分析这些种之间的可能亲缘关系。并进行判别分析

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。
关闭