欢迎来到天天文库
浏览记录
ID:56446580
大小:235.00 KB
页数:72页
时间:2020-06-18
《SAS软件应用之聚类分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第18章聚类分析中国疾病预防控制中心学习目标了解聚类分析的基本思想;了解聚类分析的一些常见统计量;掌握聚类分析的基本方法;通过实例练习掌握聚类分析的SAS过程步。概述聚类分析是将随机现象归类的统计学方法,已广泛应用于医学科学研究之中。聚类分析也称群分析、点群分析,他是研究分类的一种多元统计方法。例如,我们可以根据学校的师资、设备、学生的情况,将大学分成一流大学,二流大学等;国家之间根据其发展水平可以划分为发达国家、发展中国家;概述这些问题的本质就是希望能找到一种合理的方法将一批研究对象按其所属特性分门别类。统计学上用于解决这种分类问题的主要方法是聚类分析
2、法和判别分析法。这一章主要讨论聚类分析。聚类分析的基本思想聚类分析是将样本个体或指标变量按其具有的特性进行分类的一种统计分析方法。我们所研究的样品或指标(变量)之间存在程度不同的相似性(亲疏关系)。于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间相似程度的统计量,以这些统计量为划分类型的依据。聚类分析的基本思想把一些相似程度较大的样品(或指标)聚合为一类,把另外一些彼此之间相似程度较大的样品(或指标)又聚合为另一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样品(或指标)聚合完毕,这就是分类的基本思
3、想。由此得知,聚类分析的任务有两个,第一就是寻找合理的度量事物相似性的统计量;第二是寻找合理的分类方法。聚类分析的基本思想在聚类分析中,通常我们将根据分类对象的不同分为Q型聚类分析和R型聚类分析两大类。Q型聚类分析是对样本进行分类处理,又称为样本聚类分析;R型聚类分析是对指标进行分类处理,称为指标聚类分析。对样品进行聚类的目的是将分类不明确的样品按性质相似程度分为若干组,从而发现同类样品的共性和不同样品间的差异。对指标进行聚类的目的是将分类不明确的指标按性质相似程度分成若干组,从而在尽量不损失信息的条件下,用一组少量的指标来代替原来的多个指标。聚类分析的
4、基本思想R型聚类分析的主要作用是:①不但可以了解个别变量之间的关系的亲疏程度,而且可以了解各个指标组合之间的亲疏程度;②根据变量的分类结果以及它们之间的关系,可以选择主要变量进行回归分析或Q型聚类分析。Q型聚类分析的作用是:①可以综合利用多个变量的信息对样本进行分类;②分类结果是直观的,聚类谱系图非常清楚地表现其数值分类结果;聚类分析所得到的结果比传统分类方法更细致、全面、合理。聚类分析的基本思想例如在医生医疗质量研究中,有N个医生参加医疗质量评比,每一个医生有K个医疗质量指标被记录。利用聚类分析可以将N个医生按其医疗质量的优劣分成几类,或者把K个医疗质
5、量指标所反映的问题侧重点不同分成几类。前者是聚类分析中的样品聚类,后者是指标聚类。聚类分析的统计量无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性度量的统计量。聚类分析中用来衡量样本个体之间属性相似程度的统计量和用来衡量指标变量之间属性相似程度的统计量是不同的,前者用的统计量是距离系数,后者用的统计量是相似系数。距离系数的定义有很多,如欧式距离、极端距离、绝对距离等。相似系数的定义也很多,如相关系数、列联系数等。下面给出它们的计算公式。距离明氏距离马氏距离兰氏距离类间距离类间距离最短距
6、离法最长距离法重心距离法平均距离法中间距离法Ward离均差平方和法相关系数相关系数是最容易理解的一种统计量,它就是统计中经常用的两变量之间的简单相关系数。在聚类分析中,相关系数用来描述两个指标之间的相似程度。是第s个指标变量,是第t个指标变量,相关系数两个指标变量和之间的相关系数是:这是一个无量纲统计量。在指标聚类分析中,两个指标变量之间的相关系数越大,说明这两个指标变量的性质越相似。类间相似系数夹角余弦相关系数聚类分析的方法聚类分析的方法很多,本章仅介绍常用的系统聚类法和逐步聚类法。系统聚类法适用于小样本的样本聚类或指标聚类。逐步聚类法适用于大样本的样
7、本聚类。对于小样本的样本聚类,如果采用逐步聚类法,聚类结果将与样本的顺序有关。聚类指标一般用系统聚类法来聚类指标,它的基本思想是先把k个指标看成一类;然后用主成分分析法将它分解成若干类,分类的原则是使得每一类的类内指标总变异尽可能多地被该类的类成分所解释;如果每一类的类内指标总变异被类成分所解释的比例满足事先给出的要求,则聚类停止;否则,对比例小的类再继续进行分解,直到所有类的类内指标总变异被类成分所解释的比例都满足事先给出的要求为止。聚类指标系统聚类法对k个指标进行聚类的具体步骤如下:①确定每一类的类内指标总变异被类成分所解释的最低比例P;②把所有指标
8、看成一类,计算类内指标总变异被类成分所解释的比例,如果所解释的比例大于或等于P,
此文档下载收益归作者所有