欢迎来到天天文库
浏览记录
ID:49500062
大小:82.50 KB
页数:15页
时间:2020-02-06
《聚类分析和判别分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、SPSS软件之聚类分析和判别分析西安科技大学理学院张守刚2013年7月一、什么是聚类分析和判别分析?聚类分析又称为群分析,是研究(样品或指标)分类问题的一种多元统计方法。所谓类,通俗的说就是指相似元素的集合。比如,若要对某些大城市的物价指数进行考察,而物价指数非常多,有农用生产物价指数、服务项目物价指数、食品消费物价指数,等等。由于要考虑的物价指数很多,通常需要先对这些物价指数进行分类,这就要用到聚类分析。总体来说,聚类分析就是把没有分类信息的资料按照相似程度进行归类;两类:系统聚类法和非系统聚类法,系统聚类法是应用
2、最广泛的一种方法;聚类分析的核心是确定“度量==分类的准则”;判别分析是判别样品所属类型的一种统计方法。与聚类分析一样,判别分析也用于解决分类问题的,不同之处在于,判别分析是在已知研究对象分成若干类型(或组别)并已经取得各种类型的一批已知样品的观测量数据的基础上,根据某些准则建立判别式,然后对未知类型的样品进行判别分析。按照判别准则,分为:距离判别、Bayes判别和Fisher判别。在解决实际问题中,聚类分析和判别分析往往联合起来使用。二、聚类分析主要方法K-均值聚类分析:也称为快速聚类法,是非系统聚类法中最常用的聚
3、类法,优点是内存少,计算量小,处理速度快,适合大样本的聚类分析系统聚类法;系统聚类法是效果最好且经常使用的方法之一;两步聚类法:一种探索性的聚类方法,是随着人工智能的发展而发展起来的智能聚类方法中的一种,主要用于解决海量数据或者具有复杂数据类别结果的聚类分析问题。1.系统聚类法核心思想2.系统聚类法步骤(1)数据变换处理。在聚类分析过程中需要对各个原始数据进行一些相互比较运算,而各个原始数据往往由于计量单位不同而影响这种比较和运算。因此,需要对原始数据进行必要的变换处理,以消除不同计量单位对数据值大小的影响。(2)计
4、算聚类统计量。聚类统计量是根据变换以后的数据计算得到的一个新数据。它用于表明各样品或变量间的关系密切程度和相似系数两大类。(3)选择聚类方法。根据聚类统计量,运用一定的聚类方法,将关系密切的样品或变量聚为一类,将关系不密切的样品或变量加以区分。选择聚类方法是聚类分析最终的也是最重要的一步。案例1中国统计年鉴,2005,主要城市日照时数。变量有:City—城市名称;月份—Jan、Feb、……、Dec。注:聚类可分为变量聚类和观测量聚类,本案例采用变量聚类方法。三、判别分析主要方法距离判别法:根据已知分类的数据,分别计算
5、各类的均值(重心)。判别准则是任给一次观测,若它与第I类的重心距离最近,就认为来自第I类,采用马氏距离,适合于对自变量均为连续变量的情况进行分类,对分布没有要求。Fisher判别法:借助方差分析的思想构造一个判别函数,其中判别系数的确定原则是使得类间的区别最大,而且类内的离差最小,利用判别函数计算出待判样品的判别指标,然后与判别临界值进行比较,判别它的类属。应用较广,对分布方差都没有要求,但总体个数多时,麻烦。Bayes判别法:在考虑先验概率的前提下,利用Bayes公式计算样品来自第I类的后验概率,使用错判损失最小的
6、概念作为判别准则,建立判别函数,将待判样品归入来自概率最大的类。Bayes判别主要用于多类判别,要求总体呈多元正态分布;逐步判别法:与逐步回归法思想类似,都是逐步引入变量,每引入一个“最重要”的变量进入判别式,同时也考虑较早引入判别式的某些变量,若其判别能力不显著了,就剔除,知道判别式中没有不重要的变量需要剔除,且没有重要的变量需要引入为止。这个筛选过称的本质就是假设检验。案例2中国统计年鉴,1995,人类发展报告部分数据。选取了高发展水平、中等发展水平的国家各5个作为两组样品,另选了4个国家作为待判别样品。利用逐步
7、判别法判别待判别样品的类别。
此文档下载收益归作者所有