欢迎来到天天文库
浏览记录
ID:58662684
大小:542.00 KB
页数:75页
时间:2020-10-05
《聚类分析部分ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、多元统计课程设计之聚类分析长春工业大学聚类分析概述聚类分析又称群分析,它是研究(样品或指标)分类问题的一种多元统计方法。所谓类,通俗的说,就是指相似元素的集合。在社会经济领域中存在着大量分类问题。比如,在经济学中,根据人均国民收入、人均工农业产值和人均消费水平等多项指标对世界上所有国家的经济发展状况进行分类。世界上,按经济发展水平可以将各个国家和地区划分为发达国家、发展中国家和贫困落后国家等。聚类分析的目的是把分类对象按一定规则分成若干类,这些类不是事先给定的,而是根据数据的特征确定的,对类的数目
2、和类的结构不必作任何假定。聚类分析也能用来概括数据而不只是为了寻找“自然的”或“实在的”分类。判别分析与聚类分析的关系判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行判别分类。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。正因为如此,判别分析和聚类分析往往联合起来使用,例如判别分析是要求先知道各类总体情况才能判断新样品的归类,当总体分类不清楚时,可先用聚类分析对
3、原来的一批样品进行分类,然后再用判别分析建立判别式以对新样品进行判别。聚类分析与判别分析、主成分分析、回归分析等方法联合起来使用,往往效果更好。聚类分析根据分类对象不同分为Q型聚类分析和R型聚类分析。Q型聚类是指对样品进行聚类,R型聚类是指对变量进行聚类。教材中主要介绍Q型聚类。聚类分析内容非常丰富,有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。我们主要介绍系统聚类法。在对样品(或变量)进行分类时,很直观地,我们认为在同一类里的的这些对象在某种意义上倾向于彼此相似,而
4、在不同类里的对象倾向于不相似。多元统计分析中,样品(或变量)之间的这种相似性用距离和相似系数来度量。距离和相似系数距离常用来度量样品之间的相似性相似系数常用来度量变量之间的相似性样品之间的距离和相似系数有着各种不同的定义,而这些定义与变量的类型有着非常密切的关系。变量的类型通常变量按测量尺度的不同可以分为以下三类:(1)间隔尺度变量:变量用连续的量来表示,如长度、重量、速度、温度等;(2)有序尺度变量:变量度量时不用明确的数量表示,而是用等级来表示,如某产品分为一等品、二等品、三等品等有次序的关系。(
5、3)名义尺度变量:变量用一些类表示,这些类之间既无等级关系,也无数量关系,如性别职业、产品的型号等。距离设为第i个样品的第j个指标,数据矩阵表如下:在上表中,每个样品有p个变量,故每个样品都可以看成是中的一个点,n个样品就是中的n个点。在中需定义某种距离,将第i个样品与第j个样品之间的距离记为,在聚类过程冲,相距较近的点倾向于归为一类,相距较远的点应归属不同的类。距离的性质距离一般应满足如下四个条件:(1),对一切i,j;(2),当且仅当第i个样品与第j个样品的各变量值都相同;(3),对一切i,j;(
6、4),对一切i,j,k。常用距离定义Minkowski(明考夫斯基)距离(明氏距离)第i个样品与第j个样品间的明氏距离定义为:明氏距离有以下三种特殊形式:(1)当q=1时,,成为绝对值距离,也常被称为“城市街区”距离;(2)当q=2时,,称为欧氏距离,这是聚类分析中最常用的一个距离;(3)当q=∞时,,称为契比雪夫距离。当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。最常用的标准化处理是其中为第j个变量的样板均值,为第j个
7、变量的样本方差。明氏距离特别是其中的欧氏距离是人们比较熟悉的也是使用最多的距离。但明氏距离存在不足之处,主要表现在两个方面:第一,它与各指标的量纲有关;第二,它没有考虑指标之间的相关性。除此以外,从统计的角度上看,使用欧氏距离要求一个向量的n个分量是不相关的且具有相同的方差,或者说各坐标对欧氏距离的贡献是同等的且变差大小也是相同的,这时使用欧氏距离才合适,效果也较好,否则就有可能不能如实反映情况,甚至导致错误的结论。故一个合理的做法,就是对坐标加权,这就产生了“统计距离”。比如设,且Q的坐标是固定的,
8、点P的坐标相互独立地变化。用表示p个变量的n次观测的样本方差,则可定义P到Q的统计距离为:所加的权是,即用样本方差除相应坐标。当取时,就是点P到原点O的距离。若时,为欧氏距离。兰氏(Lance和Williams)距离当时,可以定义第i个样品与第j个样品间的兰氏距离为这个距离与各变量的单位无关。由于它对大的异常值不敏感,故适用于高度偏斜的数据。兰氏距离有助于克服各指标之间量纲的影响,但与明氏距离一样,也没有考虑指标建的相关性。马氏(Mahalanobis)
此文档下载收益归作者所有