多元统计分析 第6章(聚类分析)new

多元统计分析 第6章(聚类分析)new

ID:34473791

大小:801.92 KB

页数:193页

时间:2019-03-06

多元统计分析 第6章(聚类分析)new_第1页
多元统计分析 第6章(聚类分析)new_第2页
多元统计分析 第6章(聚类分析)new_第3页
多元统计分析 第6章(聚类分析)new_第4页
多元统计分析 第6章(聚类分析)new_第5页
资源描述:

《多元统计分析 第6章(聚类分析)new》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第六章聚类分析“物以类聚,人以群分”1聚类分析的实际案例老师要了解学生数学知识的掌握情况,该如何做?将学生分类,每类考试分析试卷给予相应的辅导2判别分析:对总体的信息有一定的了解,比如知道一些训练样本的情况.聚类分析:没有总体的信息,也不知道应该分成几类.3§6.1引言§6.2距离与相似系数§6.3系统聚类法§6.4动态聚类法§6.5有序样品聚类法§6.6变量聚类法4利用SAS帮助系统找到聚类分析方法的使用说明和例子的路径:聚类分析方法的帮助路径:帮助(H)→SAS帮助和文档(H)→SAS产品→SAS/stat→SAS/statUser’s

2、Guide→IntroductiontoClusteringProcedures5§6.1引言聚类分析要解决的问题:事先不知道所研究的问题应分为几类,更不知道观测到的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的统计量、确定分类数目、建立一种分类方法,并按亲近程度对观测对象给出合理的分类.6(系统)聚类分析的关键步骤:1.指标的选取2.样品之间距离的刻画3.类与类之间距离的刻画4.确定最终的分类个数7聚类对观测聚类对变量聚类(Q型聚类分析)(R型聚类分析)VARCLUS过程系统聚类法动态聚类

3、法CLUSTER过程FASTCLUS过程8R型聚类分析的目的:(1)对变量进行分类;(2)可以了解变量间及变量组合间的亲疏关系;(3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分析、判别分析或Q型聚类分析.9Q型聚类分析的目的:(1)对观测进行分类;(2)找出每类的特点以指导具体的实际工作.10§6.2距离与相似系数描述观测(变量)的亲疏关系的常用量有:1.距离2.相似系数.11变量分类(Stevens):变量定性变量定量变量名义变量有序变量区间变量比例变量12样

4、一、样品间的距离和相似系数本与n个观测看成m维空间中的n个点,用d表ij样示样品X和X之间的距离,要求:(i)(j)品(1)d≥0,对一切i,j;ij当d=0⇔X=X;ij(i)(j)(2)d=d,对一切i,j;ijji(3)d≤d+d,对一切i,j,k.ijikkj131.闽科夫斯基(Minkowski)距离1⎡mq⎤qdij(q)=⎢∑xit−xjt⎥⎣t=1⎦(i,j=1,2,?,n)14(1)绝对值距离当q=1时的一阶Minkowski度量mdij(1)=∑xit−xjt(i,j=1,2,?,n)t=115(2)欧氏距离当q=2时的

5、二阶Minkowski度量m2dij(1)=∑xit−xjt(i,j=1,2,?,n)t=116(3)切比雪夫距离d(∞)=maxx−x(i,j=1,2,?,n)ijitjt1≤t≤m172.兰氏距离(要求x>0,LanceandWilliams)ij1mx−xitjtdij(L)=∑mt=1xit+xjt(i,j=1,2,?,n)特点:(1)一个无量纲的量(2)对大的奇异值不敏感183.马氏距离(Mahalanobis)()′−1()d(M)=X−XSX−Xij(i)(j)(i)(j)(i,j=1,2,?,n)其中:S为样本协差阵.特点:

6、(1)考虑了变量之间的相关性(2)一个无量纲的量(3)所有观测用同一个协差阵S效果不好,使用不便194.斜交空间距离1⎡1mm⎤2dij=⎢2∑∑(xik−xjk)(xil−xjl)rkl⎥⎣mk==11l⎦(i,j=1,2,?,n)其中r为变量X和X之间的相关系数.klkl20二、变量间的相似系数和距离设C表示变量X和X之间的相似系ijij数,要求:(1)C=±1⇔X=aX(a≠0,常数);ijij(2)C≤1,对一切i,j;ij(3)C=C,对一切i,j.ijjiC越接近1,则表示X和X的关系越密切,ijij越接近0,两者关系越疏远.2

7、11.夹角余弦n∑xtixtj[]t=1C(1)=cosα=ijijnn22∑xti∑xtjt=1t=1(i,j=1,2,?,m)222.相关系数n∑(xti−xi)(xtj−xj)t=1C(2)=ijnn22∑(xti−xi)∑(xtj−xj)t=1t=1(i,j=1,2,?,m)相关系数就是对数据作标准化处理后的夹角余弦.233.变量间的距离(1)利用相似系数来定义变量间的距离d=1−Cijij22或d=1−Cijij(i,j=1,2,?,m)24(2)利用样本协差阵来定义变量间的距离d=s+s−2sijiijjij(i,j=1,2,?

8、,m)其中样本协差阵S=(s)>0.ij(3)利用前面定义样品的距离公式来定义变量间的距离254.特殊定性变量间的距离定义的一个例子案例1欧洲各国的语言有许多相似之处,有的十分相

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。