聚类分析和判别分析

聚类分析和判别分析

ID:37440793

大小:254.10 KB

页数:30页

时间:2019-05-12

聚类分析和判别分析_第1页
聚类分析和判别分析_第2页
聚类分析和判别分析_第3页
聚类分析和判别分析_第4页
聚类分析和判别分析_第5页
资源描述:

《聚类分析和判别分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第8章聚类分析和判别分析俗话说“物以类聚,人以群分”,在现实生活中,为了更好的认识事物,人们往往需要根据事物的属性对事物进行分类,分类是人类认识客观世界的一种重要方法。在社会生活的各个方面和科学研究的各个领域都存在着大量的分类问题。在实际生活中经常需要使用聚类分析对事物进行分类,在总体类别已知时需要使用判别分析对研究对象进行归类。在SPSS中其菜单打开方式为:选择“分析”“分类”命令,打开如图所示的“分类”菜单。8.1聚类分析基本原理聚类分析作为一种重要的分类方法,其实质在于通过研究对象之间的亲疏关系将相似的对象划分为一类,不相似的对象划分到不同的类别当中。在本节

2、中将介绍聚类分析的概念、计算方法和聚类结果的评价等。8.1.1聚类分析简介聚类分析(ClusterAnalysis)是根据事物本身的特征通过统计方法对事物进行分类的多元分析方法,可以通过数据建模达到简化数据的目的。聚类分析也称为分类分析、数值分类或集群分析等。根据分类对象的不同,聚类分析可分为样本聚类和变量聚类两种。8.1.2聚类分析的计算在聚类分析过程中,需要区分为不同的类,事物是怎样划分到不同的类别当中的呢?判断不同事物是否归于一类依据的是事物之间的相似性。事物相似性的度量标准一般有两种:距离和相似性系数,距离一般用来度量样本之间的相似性,而相似性系数一般是用来

3、度量变量之间的相似性。1.距离距离的计算根据观测指标数据类型的不同可以分为两种情况:如果观测指标是非连续数据,需要采用卡方分析等计算方法;如果观测值标是连续数据,则可以采用以下几种算法:(1)明氏距离(2)马氏距离(3)兰氏距离(4)自定义距离2.相似性系数前面提到,聚类分析不仅可以对样本进行聚类,而且还可以对变量进行聚类,当对变量进行聚类时,考察变量之间关系的指标一般采用相似性系数来表示。相似性系数是描述测量指标之间相关程度的指标,取值范围为[-1,1],相似系数越大,变量之间的相似性就越高。根据研究目的的不同,有时只需要考察相关系数绝对值的大小,有时还要考虑到相

4、关的方向,即相关系数的正负。聚类时,相似的变量归入一类,不相似的变量归到不同的类。相似性系数的计算方法常见的有积差相关系数和夹角余弦等。积差相关系数:8.1.3聚类结果的评价聚类分析是一个探索性的过程,在使用聚类分析过程中,除了要根据不同的数据类型选择其最适合的聚类方法外,还往往需要结合数据结构和对聚类样本或变量的先验经验,并且不断探索和尝试才能得到比较好的聚类结果。这里简要介绍一些判断类别数量是否合理的标准和最终分类应该符合的要求作为参考。1.规定一个阈值T2.查看样本的散点图3.使用统计量8.2.1二阶聚类的基本原理顾名思义,二阶聚类是指聚类过程是分为两步进行的

5、,故又称为两步聚类。二阶聚类发展较晚,但由于其能同时处理连续数据和离散数据,同时还可以自动确定最佳聚类个数,加上处理速度快等优点,使它从一经提出就在多个领域得到推广,并受到越来越多用户的青睐。二阶聚类主要分为以下两个步骤:(1)预分类(2)正式聚类8.2.2二阶聚类的操作过程在SPSS中二阶聚类的操作过程如下:(1)打开或建立数据文件。(2)选择“分析”“分类”“两步聚类”命令,打开“二阶聚类分析”对话框,如图所示。(3)选择变量(4)选择距离度量标准(5)连续变量计数(6)设定聚类数量(7)选择聚类准则(8)选项设置(9)输出设置(10)设置完成后,单击“确定

6、”按钮,执行操作,输出结果。8.2.3实例分析:普通高等学校(机构)教职工队伍构成(1)教师队伍的构成影响和制约着高等教育的质量和发展。现准备根据2008年中国部分省份普通高等学校(机构)教职工队伍构成情况对这些地区进行分类。收集到的资料包括:正高级职称人数(单位:人)、副高级职称人数、中级职称人数、初级职称人数和无职称人数。1.操作过程2.结果分析8.3K-均值聚类分析K-均值聚类(K-Means-Cluster)是一种快速样本聚类方法,在聚类个数已知的情况下,特别适合于对大样本数据进行分析。在本节将介绍K-均值聚类的基本原理和操作过程。8.3.1K-均值聚类的基

7、本原理K-均值聚类(K-Means-Cluster)又称快速样本聚类或逐步样本聚类,是先将样本数据进行初始分类,然后根据中心点逐步调整,直至得到最终分类。这种聚类方法具有计算量大、对系统要求低、占用内存少、处理速度快的特点,因此特别适合处理大样本数据。但是这种聚类方法只适于对样本的聚类,而不能对变量进行聚类。K-均值聚类分析的基本步骤如下:(1)确定聚类数量。(2)确定初始类中心坐标。(3)根据距离最近原则进行分类。(4)重新计算所形成的各个新类别的中心点坐标,并重新归类。(5)重复上一过程,直至达到收敛标准。8.3.2K-均值聚类的操作过程前面介绍了K-均值聚

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。