欢迎来到天天文库
浏览记录
ID:61796790
大小:749.50 KB
页数:44页
时间:2020-02-06
《第12章 聚类分析与判别.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第12章聚类分析与判别分析《管理统计学》谢湘生广东工业大学管理学院12.1聚类分析的作法12.1.1概述聚类分析(ClusterAnalysis)是依据研究对象的个体特征,对其进行分类的方法。分类在经济、管理、社会学、医学等领域,有着广泛的应用。[例]为制定我国成年女子的服装标准,选了14项身体指标:(1)总的体高Y1(2)身高Y2(3)上体长Y3(4)手臂长Y4(5)肩宽Y5(6)胸围Y6(7)颈围Y7(8)前胸Y8(9)后背Y9(10)前腰节Y10(11)后腰节Y11(12)下体长Y12(13)腰围Y13(14)臀围Y14对3454个成年女子分别进行了测量。如何根据样本的测量数据制
2、定合乎中国国情的成年女子服装标准。3454名成年女子14个部位的谱系聚类图(类平均法)上体长y1手臂长y2下体长y12总体高y10身高y11前腰节y8后腰节y9胸围y3腰围y13臀围y14颈围y4前胸宽y6后背宽y7总肩宽y5距离00.10.20.30.40.50.60.7相关系数10.90.80.70.60.50.40.3问如何将下述卡通人物分类?管理实际中经常会遇到类似的问题。一般地,设有p个指标(变量),n个对象,依据这n个对象在这p个指标下的数据,对这n个对象进行聚类。设数据为指标:1,2,…,p对象1对象2…对象nP维空间中的一个点聚类问题,就是对p维空间中的n个点的聚类问题
3、。一些要注意的问题变量(指标)并非越多越好。变量太多,就难以判断聚类结果的实际意义。例如对企业按照技术能力的各项指标(变量)聚类,可以在技术能力等方面把企业分为不同的类别。但如果把企业相关的所有指标都包括进来,对分类结果的含义就难以判断了。只要指标间有一定相关关系(不必高度相关),就可以对所观察的一群个体分类(Q-型聚类)。从而可以对个体进行进一步研究。例如可以对消费者的偏好进行分类;可以依据不同地区的有关经济特征(变量)对地区进行分类;等等。如果指标(变量)过多,也可以对指标进行分类(R-型聚类),把含义相近的指标聚在一起,将所有指标分为若干类。10.1.2聚类分析的作法1.将数据标
4、准化为了消除不同变量的单位对聚类的影响,应当首先将所有的数据标准化。对上述数据矩阵X而言,按列进行标准化,就可解决不同数据单位问题。其中分别表示第j列数据的均值与标准差。2.计算对象之间的“距离”直观地,应将“相似”的对象分为一类,但如何刻画“相似”。根据前面的讨论,聚类实际上是对n维空间的点进行的,因此“相似”的点的“距离”也近。具体来说,先计算第i个对象与第j个对象之间的距离rij,就可得到对象之间“相似关系”矩阵:对象1对象2…对象n1,2,…,n对象,对象,…,对象对通常的距离而言,rij=rji,因此该矩阵为对称矩阵。聚类分析中的“距离”(1)欧氏距离:欧氏距离的平方为(2)
5、偏差距离:(3)明考夫斯基(Minkowski)距离(的q次方):(4)马氏(Mahalanobis)距离(的平方):其中V是协方差矩阵。在聚类分析中,(1)、(2)中的常数因子(1/p)可以去掉,这样它们就是明氏距离的特殊情况。在具体应用时,可根据实际问题选用其中一种距离。(1)相关系数:(2)余弦:相似系数3.选择类与类之间的距离定义(1)类的定义:由1个以上(含1个)对象组成的集合。(2)类与类之间的距离,有如下几种规定:①用“代表点”之间的距离表示,可以采用两个类之间距离最近(或最远)的点,分别作为这两类的代表点。具体又可分为:最短距离:取距离最近的两点间距离为两类间的距离。最
6、长距离:取距离最远的两点间距离为两类间的距离。②用两个类(设它们分别是类S和类T)中所有点之间距离(平方)的平均值,作为两个类之间的距离(的平方):其中ns,nt分别是两类中点的个数。dij是点i与点j之间的距离。这种方法的优点在于,类间的距离不依赖于类内的个别点。采用这种距离聚类的方法称为组间连接法(Between-grouplinkage)。③按照某一规则,选择类中的一点,作为该类的“代表点”,然后通过代表点间的距离计算类间距离。类间距离S1S3S2S4S5最短距离(singlelinkage)最长距离(completelinkage)类间距离S1S3S4S5类间距离S1S3S2S
7、4S5平均距离(average)附:离差平方和法(WARD)基本思想来源于方差分析。它认为:如果分类正确,同类间的离差平方和应较小,类与类之间的类差平方和(与距离有关)应较大.具体做法是,先将n个样本分成一类,然后每次缩小一类,每缩小一类离差平方和就要增大.4.聚类思路:聚类是一个迭代过程,首先将每个对象本身作为一类,然后进行迭代,每次迭代都将距离最近(或最远)的类合并成新的类,因此每次迭代类的数目将减少,直至最后所有的对象并为一类为止。可以用
此文档下载收益归作者所有