《聚类与判别分析》PPT课件

《聚类与判别分析》PPT课件

ID:39063821

大小:1.86 MB

页数:63页

时间:2019-06-24

《聚类与判别分析》PPT课件_第1页
《聚类与判别分析》PPT课件_第2页
《聚类与判别分析》PPT课件_第3页
《聚类与判别分析》PPT课件_第4页
《聚类与判别分析》PPT课件_第5页
资源描述:

《《聚类与判别分析》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第五章聚类与判别分析(一)主要内容聚类及判别分析快速样本聚类分层聚类判别分析5.1聚类与判别概述聚类和判别都是分类学的基本方法,而分类学是人类认识世界的基础科学。掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义。聚类有两种基本的方法:快速样本聚类和分层聚类。判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数,再根据判别函数对未知所属类别的事物进行分类的一种分析方法。5.1聚类与判别概述5.1.1聚类分析聚类分析(ClusterAnalysis)是根据事物本身的特性研究个体分类的方法。聚类分析的原则是同一类中的个体有较大的相似性,不同类的个

2、体差异很大。根据分类对象不同分为样品聚类和变量聚类。样品聚类在统计学中又称为Q型聚类。用SPSS的术语来说就是对事件(cases)进行聚类,或是说对观测量进行聚类。是根据被观测的对象的各种特征,即反映被观测对象的特征的各变量值进行分类。变量聚类在统计学中有称为R型聚类。反映事物特点的变量有很多,我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究。5.1聚类与判别概述5.1.1聚类分析根据分类对象的不同,样品(观测量)聚类和变量聚类两种:样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的指标作为分类的依据,如选拔运动员与分课外活动小组)变量聚类:找出彼此独立且

3、有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。5.1聚类与判别概述5.1.2判别分析判别分析(Discriminant)是根据表明事物特点的变量值和它们所属的类求出判别函数,根据判别函数对未知所属类别的事物进行分类的一种分析方法。 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断。如动物学家、植物学家对动物、植物如何分类的研究和某个动物、植物属于哪一类、哪一目、哪一纲的判断等。5.1聚类与判别概述5.1.3Classify的功能SPSS中进行聚类和判别

4、分析的统计过程,是由菜单“Analyze”令“Classify’”导出的。选择“Classify’”,可以显示三个过程命令:(1)K-MeansCluster进行快速聚类过程。(2)HierarchicalCluster进行样本聚类和变量聚类过程。(3)Discriminant进行判别分析过程。5.2快速聚类5.2.1快速聚类的概念K-MeansCluster执行快速样本聚类,使用k均值分类法对观测量进行聚类。可以完全使用系统默认值执行该命令,也可以对聚类过程设置各种参数进行人为的干预。例如,可以事先指定把数据文件的观测量分为几类;指定使聚类过程中止的判据,或迭代次数等。进行快

5、速样本聚类首先要选择用于聚类分析的变量和类数。参与聚类分析的变量必须是数值型变量,且至少要有一个。为了清楚地表明各观测量最后聚到哪一类,还应该指定一个表明观测量特征的变量作为标识变量,例如编号、姓名之类的变量。聚类必须大于等于2,但聚类数不能大于数据文件中的观测量数。5.2快速聚类5.2.1快速聚类的概念如果选择了n个数值型变量参与聚类分析,最后要求聚类数为k。那么可以由系统首先选择k个观测量(也可以由用户指定)作为聚类的种子,n个变量组成n维空间。每个观测量在n维空间中是个点。K个事先指定的观测量就是k个聚类中心点,也称为初始类中心。按照距这几个类中心的距离最小原则把观测量分

6、派到各类中心所在地类中;形成第一次迭代形成的k类。根据组成每一类的观测量计算各变量均值,每一类中的n个均值在n维空间中又形成k个点,这就是第二次迭代的类中心,按照这种方法依次迭代下去,直到达到指定的迭代次数或中止迭代的判据要求时,迭代停止,聚类结束。从上述分析过程可以看出,K-MeansCluster不仅是快速样本聚类过程,而且是一种逐步聚类分析。所谓逐步聚类分析就是先把被聚对象进行初始分类,然后逐步调整,得到最终分类。5.2快速聚类5.2.1快速聚类的概念例1为研究儿童生长发育的分期,调查1253名1个月至7岁儿童的身高(cm)、体重(kg)、胸围(cm)和坐高(cm)资料。

7、资料作如下整理:先把1个月至7岁划成19个月份段,分月份算出各指标的平均值,将第1月的各指标平均值与出生时的各指标平均值比较,求出月平均增长率(%),然后第2月起的各月份指标平均值均与前一月比较,亦求出月平均增长率(%),结果见下表。欲将儿童生长发育分为四期,故指定聚类的类别数为4,请通过聚类分析确定四个儿童生长发育期的起止区间。5.2快速聚类5.2.1快速聚类的概念例15.2快速聚类5.2.1快速聚类的概念例1激活“Analyze”菜单选“Classify”中的“K-MeansCluste

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。