欢迎来到天天文库
浏览记录
ID:43483119
大小:560.00 KB
页数:67页
时间:2019-10-08
《医学统计学课件--聚类分析-07》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第十九章聚类分析(ClusterAnalysis)古语:“物以类聚”,找出特征相似的类别,研究其规律性。第二军医大学卫生统计学教研室孟虹7/23/20211医学统计学本章的内容第一节相似系数*第二节系统聚类*第三节动态样品聚类*第四节有序样品聚类第五节应用注意事项*重点:掌握聚类分析用途、概念、方法的区别、注意问题。7/23/20212医学统计学概述聚类分析是将未知现象进行归类的多元统计方法。主要用途:对研究的事物分类或做探索性的研究。目的:通过分类,找出同类的共性和不同类的差异,为决策提供参考.7/23/20213医学统计学聚类分析聚类对象的类型:R型聚类:对n个指标(变量或varia
2、ble)归类(index-cluster-analysis)。Q型聚类:对n个观察对象(样品或case)归类(samples-cluster-analysis)。7/23/20214医学统计学例:中医证型研究对临床症状分类(指标聚类)7/23/20215医学统计学2002年中国部分省市国民经济数据指标N均数标准差最小最大人均GDP3193777165289537382人口数31408026432629405城镇家庭人均消费315367144538949336农村家庭人均消费31182881910984753各地居民消费价格指数31100.81.3998.5104研究问题:对31省市分类,
3、了解中国各省市地区居民生活水平的差异.(对样品聚类)经济学研究7/23/20216医学统计学聚类方法根据分类样品(变量)的多少及特点。方法:系统(层次)聚类---(例数少)*动态样品聚类---(例数多)*有序聚类--(样品在时间和空间有自然顺序)神经网络的聚类---(自动确定类别)*SPSS和SAS软件可得到.7/23/20217医学统计学聚类分析基本思想与步骤思想:根据指标和样品的相似性.步骤:1.计算描述样品(变量)间相似性的指标:用距离系数或相关系数.2.根据相似性对样品(变量)归类.方法:有多种聚类方法7/23/20218医学统计学第一节相似系数意义:用相似系数度量指标和样品间的
4、相似程度.1.指标(变量)间的相似系数:①变量为计量数据相关系数(r)(19-1)7/23/20219医学统计学②变量为计数数据(等级或两分类)列连系数(C)(19-2)7/23/202110医学统计学2.个体(样品)间的相似系数用个体间某变量(x)的距离(dij)表示:欧氏距离:(Euclideandistance)绝对距离:距离越小,样品间相似程度越高.i和j表示不同个体7/23/202111医学统计学第二节系统聚类(层次聚类)(hierarchicalclustering)步骤如下:1.将每个变量(样品)各视为一类.2.将相似系数最大(距离最小)的两类合并新类,计算新类与其他类的类
5、间相似系数.3.重复第2步过程,直到全部合并为一类.4.结果:得到聚类的树状图。7/23/202112医学统计学相关系数身高下肢长腰围胸围10x1x3x4x2系统聚类结果的树状图相似系数7/23/202113医学统计学系统聚类(对变量聚类)例:19-1测量3454例成年女性的身高(x1)、下肢长(x2)、腰围(x3)、胸围(x4),问4个指标可以分为几类。数据略.7/23/202114医学统计学1.计算变量间的两两相似系数(r)并认为各变量各为一类,即G1,G2,G3,G4。G1=X1G2=X2G3=X3G2=X20.852G3=X30.0990.055G4=X40.2340.1740.
6、732R0找出最大相似系数值组成新类.聚类步骤:7/23/202115医学统计学系统聚类类间相似系数计算当聚类的两类变量(样品)各只含一个变量时,如G1,G2,两类间的类间相似系数为rij或dij。当聚类两类变量(样品)含有两个变量时,两类间的类间相似系数的计算有讲义5种。7/23/202116医学统计学类间相似系数的计算(讲义401页)聚类的方法最大相似系数法最小距离法重心法类平均法离差平方和法统计软件有11种方法,但基本思想一致.7/23/202117医学统计学最大相似系数法(401页)rpq表示第p类和第q类的类间相似系数.Gp类中的n个变量与Gq类中的n个变量两两间共有npnq个
7、相似系数,以其中最大者为Gp与Gq的类间相似系数。19-77/23/202118医学统计学最大相似系数法聚类方法2.计算新类(G5)与G3、G4的类间相似系数,进行合并,得到R1距阵.7/23/202119医学统计学3.根据最大相似系数法,组成合并后相似系数距阵(R1)G5G3=X3G3=X30.099G4=X40.2340.732R14.重复上面步骤7/23/202120医学统计学例19-1的聚类过程步合并类别相关系数新类命名类内
此文档下载收益归作者所有