第8章:聚类分析

第8章:聚类分析

ID:42573143

大小:138.28 KB

页数:9页

时间:2019-09-17

第8章:聚类分析_第1页
第8章:聚类分析_第2页
第8章:聚类分析_第3页
第8章:聚类分析_第4页
第8章:聚类分析_第5页
资源描述:

《第8章:聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第8章聚类分析与判别分析分类学是人类认识世界的基础科学。聚类分析和判别分析是研究事物分类的基本方法。聚类分析聚类分析(ClusterAnalysis)^根据事物木身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。根据分类对象的不同分为样品聚类和变量聚类。1.样品聚类样品聚类在统计学中乂称为Q型聚类。用SPSS的术语來说就是对事件(Cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。样品聚类是进行判别分析Z前的

2、必要工作。根据样品聚类的结果进行判别分析,得岀判别函数,进而对其他研究对象属于哪一类作出判断。例如在选拔少年运动员时首先要根据少年的身体形态、身体素质、心理素质、生理功能的各种指标(变量)进行测试,得到各种指标的测试值(变量值),据此对少年进行分类。根据分类结果再求得出选材的判别函数,作为选材的依据。2.变量聚类变量聚类在统计学屮又称为R型聚类。反映同一事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。由于人类对客观事物的认识是有限的,往往难以找出彼此独立的有代表性的变量,而影响对问题的

3、进一步认识和研究。例如在冋归分析中,rtr丁自变量的共线性导致偏回归系数不能真正反映自变量对因变量的影响等。因此往往先要进行变量聚类,找出彼此独立且有代表性的自变量,而又不丢失大部分信息。判别分析判别分析是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。判别分析与聚类分析的不同在于判别分析要求已知一系列反映事物特征的数值变量值及其分类变量值。分类命令的功能其中包括:(1)K-MeansClu

4、ster进行快速聚类的过程。(略)(2)HierarchicalCluster进行样本聚类和变量聚类的过程。(3)Discriminate进行判别分析的过程。快速样本聚类过程快速聚类的基本概念当要聚成的类数已知时,使用QUICKCLUSTER过程可以很快将观测量分到各类屮去。其特点是处理速度快,占用内存少。适用于大样木的聚类分析。分层聚类分层聚类的概念与聚类分析过程1•分层聚类的概念聚类的方法有多种,除了前面介绍的快速聚类法外,最常用的是分层聚类法。根据聚类过程不同又分为凝聚法和分解法。(1)分解法:聚类开始把所有个体(

5、观测量或变量)都视为属于一大类,然后根据距离和相似性逐层分解,直到参与聚类的每个个体自成一类为止。(2)凝聚法:聚类开始把参与聚类的每个个体(观测量或变量)视为一类,根据两类之间的距离或相似性逐步合并,直到合并为一个大类为止。无论哪种方法其聚类原则都是相近的聚为一类,即距离最近或最相似的聚为一类。实际上以上两种方法是方向相反的两种聚类过程。2.在Cluster程小使用的术语:(1)聚类方法实现分层聚类的具体方法有许多种,各种方法的区别在于如何定义和计算两项(两个个体、两类、或个体与类)之间的距离或相似性。这一点体现在聚类

6、方法(Method)的一系列选择项上。如果不熟悉对聚类方法的定义,可以使用系统默认的方法。需要确定的选择项有:①聚类法的选择:定义、计算两项间距离和相似性的方法,系统默认值:组间平均连接法。②测度方法的选择:对距离和相似性的测度方法乂有多种,例如是用欧氏距离还是用欧氏距离的平方测度其相近程度,还是用相关系数测度其相似性?这一点体现在测度方法(Measure)的选择上。如果对测度方法不熟悉,可以采用系统默认的测度方法:欧氏距离平方。定义距离和相似性的方法不同,测度距离和相似性的算法不同会导致聚类结果稍有区别,但大体上是一样

7、的。(2)标准化如果参与聚类的变量的量纲不同会导致错误的聚类结果。因此在聚类过程进行之前必须对变量值进行标准化,即消除量纲的影响。如果参与聚类的变量纲相同,可以使用系统默认值None,要求SPSS对数据不要进行标准化处理。(3)树形图树形图表明每一步中被合并的类及其系数值,把各类之间的距离转换成1〜25之间的数值。(4)冰柱图冰柱图把聚类信息综合到一张图上。如果作纵向冰柱图,则参与聚类的个体各占一列,标以个休(观测量或变量)号或在图纸允许的情况下标以个休的标签;聚类过程中的每一步占一行,标以步的顺序号。如果作横向冰柱图,

8、则参与聚类的个体(观测量或变量)各占一行,聚类的每一步各山一列。如果不加限定的选择项,则显示聚类的全过程。用聚类分析过程进行观测量聚类的实例1•例一为一组有关12盎司啤酒屮的成分和价格数据,变量包括:beername啤酒名称,calorie热量卡路里,sodium钠含量,alcohol酒精含量,cost价格。数据编号

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。