应用统计学:经济与管理中的数据分析12new

应用统计学:经济与管理中的数据分析12new

ID:34390546

大小:1.09 MB

页数:113页

时间:2019-03-05

应用统计学:经济与管理中的数据分析12new_第1页
应用统计学:经济与管理中的数据分析12new_第2页
应用统计学:经济与管理中的数据分析12new_第3页
应用统计学:经济与管理中的数据分析12new_第4页
应用统计学:经济与管理中的数据分析12new_第5页
资源描述:

《应用统计学:经济与管理中的数据分析12new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十二章聚类分析和判别分析•聚类分析•判别分析•统计软件应用§12.1聚类分析一、聚类分析概述二、距离和相似系数三、系统聚类法四、动态聚类法一、聚类分析概述将分析对象进行分类的最常用的多元统计方法是聚类分析(clusteranalysis)。定义:聚类分析是将个体或对象分类,使得同一类的对象之间的相似性比与其他类的对象之间的相似性更强。目的:使同类间对象的同质性最大化和类与类间对象的异质性最大化。功能:将样品或变量,按照它们在性质上的亲疏、相似程度进行分类。分类:根据分类对象的不同又分为R型聚类(

2、R-typecluster)和Q型聚类(Q-typecluster)两大类,R型聚类是对变量(指标)进行分类,Q型聚类是对样品进行分类。聚类方法:最常用的聚类方法是系统聚类法和K-均值聚类法。此外,还有模糊聚类法、有序样品聚类法、分解法和加入法等。本节重点介绍在实际中应用最广泛的系统聚类法和K-均值聚类法,且主要讨论Q型聚类分析问题。聚类分析是将一批样品或变量按照它们在性质上的亲疏程度或相似程度来进行分类。研究样品或变量的亲疏程度的数量指标有以下两种:距离:将每一个样品看作p维空间的一个点,并用某

3、种度量测量点与点之间的距离,距离较近的点归为一类,距离较远的点应属于不同的类;相似系数:性质越接近的变量或样品,它们的相似系数越接近于1或-l,而彼此无关的变量或样品,它们的相似系数则越接近于0,相似的为一类,不相似的为不同类。样品之间的聚类,常用距离来测度样品之间的亲疏程度。而变量之间的聚类,常用相似系数来测度变量之间的亲疏程度。二、距离和相似系数(一)数据的变换处理数据变换:将原始数据矩阵中的每个元素,按照某种特定的运算把它变成为一个新值,而且数值的变化不依赖于原始数据集合中其他数据的新值。设

4、有n个样品X,X,···,X,对每个样品就其p个12n指标(变量)x,x,···,x进行观测,可得X(,xx,,x),12pii12iip其中x表示第i个样品的第j个指标,如数据矩阵所示。ij数据矩阵变量x1x2xp样品X1x11x12x1pX2x21x22x2pXnxn1xn2xnp1.中心化变换中心化变换:先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据,即:*xijxijxj,i1,2,,nj;1,2,,p中心化变换的结果是使每列数据之和

5、均为0,即每个变量的均值为0,而且每列数据的平方和是该列变量样本方差的(n-1)倍,任何不同两列数据的交叉乘积是这两列变量样本协方差的(n-1)倍。2.极差规格化变换规格化变换:数据矩阵每个变量的每个原始数据中减去该变量中的最小值,再除以极差,就得到规格化数据。即:xxmin()ijij*in1,2,,x,in1,2,,;jp1,2,,ijRj*Rmax()xmin()x,01≤x≤jijijijin1,2,,in1,2,,变换后的数据矩阵中每列的最大数值为1,最小数值为0,其余

6、数据在0~1之间;且变换后的数据都不再具有量纲,便于不同的变量之间的比较。3.标准化变换标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。即:xx*ijjx,i1,2,,nj;1,2,,)pijsj标准化变换处理后的每个变量的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。变换后,数据矩阵中任何两列数据乘积之和是两个变量相关系数的(n-1)倍。(二)定义距离的准则用d表示样品X与X之间的距离,一般要求:ijij(1)dij≥0,对一切i,j;当

7、dij0XXij,即每个样品的每个指标值都相等。(2)d=d,对一切i,j。ijji(3)d≤dd,对一切i,j,k(三角不等式)。ijikkj(三)常用的距离1.闵可夫斯基距离对于定量变量,闵可夫斯基距离(Minkowskidistance)最常用,样品X与X之间的闵可夫斯基距ij离(简称闵氏距离)定义为:p1qqdq()[

8、xx

9、]ijikjkk1其中,q为某一自然数。闵氏距离有以下三种特殊形式:p(1)当q=1时,dxijik(1)xjk

10、

11、,称为绝对值距离,k1常被

12、形象地称为“城市街区”距离(blockdistance)。p122(2)当q=2时,dxijik(2)[xjk

13、

14、],称为欧氏距离k1(Euclideandistance),这是聚类分析中最常用的一个距离。(3)当q=时,dij()max

15、xikxjk

16、,称为切比雪1≤kp≤夫距离(Chebychevdistance)。闵可夫斯基距离主要有以下两个缺点:(1)闵可夫斯基距离的数值依赖于各变量计量单位的选择。因此,当各变量的单位不同或测量值范围相差很大时,应该先对各变

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。