应用多元统计分析 北大版 第六章.ppt

应用多元统计分析 北大版 第六章.ppt

ID:48414689

大小:1.39 MB

页数:128页

时间:2020-01-19

应用多元统计分析 北大版 第六章.ppt_第1页
应用多元统计分析 北大版 第六章.ppt_第2页
应用多元统计分析 北大版 第六章.ppt_第3页
应用多元统计分析 北大版 第六章.ppt_第4页
应用多元统计分析 北大版 第六章.ppt_第5页
资源描述:

《应用多元统计分析 北大版 第六章.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、应用多元统计分析第六章聚类分析1第六章聚类分析目录§6.1聚类分析的方法§6.2距离与相似系数§6.3系统聚类法§6.4系统聚类法的性质及类的确定§6.5动态聚类法§6.6有序样品聚类法(最优分割法)§6.7变量聚类方法补充:CLUSTER过程简介2第六章§6.1聚类分析的方法什么是聚类分析聚类分析又称群分析,它是研究对样品或指标进行分类的一种多元统计方法.所谓的“类”,通俗地说就是相似元素的集合.聚类分析是按照观测样品(或变量)取值的相似程度,对观测样品(或变量)进行分类,使在同一类内的观测样品(或变量)是相似的,不同类间的观测(或变量)是不相似

2、的.什么是分类?它只不过是将一个观测对象指定到某一类(组).3第六章§6.1聚类分析的方法什么是聚类分析分类的问题可以分成两种:一种是对当前所研究的问题已知它的类别数目,且知道各类的特征(如分布规律,或知道来自各类的训练样本),我们的目的是要将另一些未知类别的个体正确归属于其中某一类,这是第五章判别分析所要解决的问题.另一种是事先不知道研究的问题应分为几类,更不知道观测到的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的量,确定分类数目,建立一种分类方法,并按亲近程度对观测对象给出合理的分类.这种问题在实际中大

3、量存在,它正是聚类分析所要解决的问题.4第六章§6.1聚类分析的方法什么是聚类分析聚类分析是实用多元统计分析的一个新的分支,正处于发展阶段,理论上虽不很完善,但由于它能够解决许多实际问题,因此这个方法很受人们的重视,特别是和其他方法联合起来使用往往效果更好.例如对一批观测对象先用聚类分析进行分类,然后用判别分析的方法建立判别准则,用以对新的观测对象判别归类.5第六章§6.1聚类分析的方法聚类分析的方法可分为以下几种:(1)系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新计算新类与其他类的距离或相近性测度.这一过程一直继续直到所有对

4、象归为一类为止.并类的过程可用一张谱系聚类图描述.(2)调优法(动态聚类法);(3)最优分割法(有序样品聚类法);(4)模糊聚类法;(5)图论聚类法;(6)聚类预报法.6第六章§6.1聚类分析的方法聚类分析的类型及目的聚类分析根据分类对象的不同分为R型和Q型两大类,R型是对变量(指标)进行分类处理,Q型是对样品进行分类处理.R型聚类分析的目的有以下方面:①了解变量间及变量组合间的亲疏关系;②对变量进行分类;③根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为典型变量,利用少数几个典型变量进一步作分析计算,如进行回归分析或Q型聚类分析等.

5、7第六章§6.1聚类分析的方法Q型聚类分析的目的Q型聚类分析的目的主要是对样品进行分类.分类的结果是直观的,且比传统分类方法更细致、全面、合理.当然使用不同的分类方法通常会得到不同的分类结果.对任何观测数据都没有唯一“正确的”的分类方法.实际应用中,常采用不同的分类方法,对数据进行分析计算,以便对分类提供意见,并由实际工作者决定所需要的分类数及分类情况.本章重点介绍应用最广泛的系统聚类法;且主要讨论Q型聚类分析问题.8第六章§6.2距离与相似系数为了对观测样品(或变量)进行分类,就必须研究它们之间的关系.描述样品之间亲疏相似程度的统计量很多,目前用

6、得最多的是距离和相似系数,这两个统计量的定义与变量的类型密切相关,我们首先介绍变量的类型.9第六章§6.2距离与相似系数定量变量和定性(属性)变量定量变量就是我们通常所说的连续变量,例如长度、重量、产量、人口、温度等,它们是由测量或计数、统计所得到的量,这类变量具有数值特征,称为定量变量.根据变量取值的不同,变量可分为两大类:定量变量和定性(属性)变量.10第六章§6.2距离与相似系数定量变量和定性(属性)变量定性(属性)变量只有性质上的差异,例如天气(阴、晴),性别(男、女),产品质量分为上中下三个等级.这些变量都是属性(定性)变量.属性变量又分为

7、名义变量和有序变量二种:(1)有序变量:其值有明确的逻辑次序,但各个值之间的距离并不清楚.(2)名义变量:其值之间无逻辑次序,可按任何次序排序编码.例如性别,职业,地区,…都是名义变量.不同类型的变量在定义距离或相似性测度时有很大差异.11第六章§6.2距离与相似系数数据的变换方法设有n个样品,每个样品测得m项指标(变量),得观测数据xij(i=1,…,n,j=1,…,m).通常将数据列成以下表格的形式.12第六章§6.2距离与相似系数数据的变换方法1.中心化变换变换后数据的均值为0,而协差阵不变.2.标准化变换变换后的数据,每个变量的样本均值为0,

8、标准差为1,而且标准化变换后的数据{x*ij}与变量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。