欢迎来到天天文库
浏览记录
ID:6181156
大小:364.00 KB
页数:30页
时间:2018-01-05
《主成分与因子分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、聚类分析一、分类俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标。二、聚类分析概述由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。对于一个数据,人们既可以对变量(指
2、标)进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。三、聚类中选择变量的要求1.和聚类分析的目标密切相关2.反映了要分类对象的特征3.变量之间不应该高度相关。四、如何聚类?聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。第一节距离和相似系数一、距离什么是距离?首先我们看样
3、本数据:一般满足以下四个条件时,就称为聚类:1.常用距离——明氏距离Minkowski距离:当q=1时:当q=2时:当q=∞时:2.明氏距离的缺点距离的大小与各指标的观测单位有关,具有一定的人为性。例如:对体重和身高进行测量,采用不同单位,其距离测量的结果不同。以欧氏距离为例。当长度=cm时:当长度=mm时:改进的方法:对数据进行标准化,然后再计算距离。另一个缺点:它没有考虑到指标之间的相关性。改进的方法是:采用马氏距离马氏距离是1936年由印度数学家:马哈拉比斯由协方差矩阵计算构造的距离。一、相似系数夹角余弦—cosine尽管图中AB和CD长度不一样,但形状相似。当长
4、度不是主要矛盾时,就可利用夹角余弦这样的相似系数。相关系数也可用相关系数来刻画样品之间的相似关系。把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。一、关联测度主要用来度量聚类变量为分类变量的研究对象的相似性。简单匹配系数:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案相同的情况出现的频率。雅科比系数:是在简单匹配系数基础上进行的改进,也是度量二分类变量的。第二节系统聚类法一、系统聚类法的步骤可选择适当的距离,计算距离把每个样品看成一类,构造n个类合并最近的两类为一新类计算新类与当前各类的距离判断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一
5、个类采用系统聚类法一、系统聚类法1.最短距离法——NearestNeighbor2.最长距离法——FurthestNeighbor3.重心法——CentroidClustering4.类平均法——Between-groupsLinkage5.离差平方和法——Word’sMethod它的思想来源于方差分析此外,还有中间距离法、类内平均法等。第三节SPSS中的聚类分析与过程例1饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量一、SPSS中的聚类分析SPSS中的聚类功能常用的有两种:快速聚类(迭代过程):K-MeansCluster分层聚类:Hiera
6、rchical1.K-MeansCluster快速聚类(1)K-MeansCluster原理首先,选择n个数值型变量参与聚类分析,最后要求的聚类数为k个;其次,由系统选择k个(聚类的类数)观测量(也可由用户指定)作为聚类的种子。第三,按照距离这些类中心的距离最小的原则把所有观测量(样品)分派到各类重心所在的类中去。第四,这样每类中可能由若干个样品,计算每个类中各个变量的均值,以此作为第二次迭代的中心;第五,然后根据这个中心重复第三、第四步,直到中心的迭代标准达到要求时,聚类过程结束。(2)K-MeansCluster聚类过程由Analyze——Classify——K-M
7、eansCluster将各变量放入Variable;输入最后聚类的个数;1.HierarchicalCluster聚类分层聚类由两种方法:分解法和凝聚法。分层聚类的功能:即可进行样品的聚类,也可进行变量的聚类。分层聚类的原理:即我们前面介绍过的系统聚类方法的原理和过程。分层聚类的中要进行以下的选择:数据的标准化测度方法的选择:距离方法的选择或相似性、关联程度的选择。聚类方法的选择:即以什么方法聚类,SPSS中提供了7中方法可进行选择。输出图形的选择:树形图或冰柱图。欧氏平方距离、类平均法聚类快速聚类法聚类欧氏平方距离、最短距离法聚类欧氏平
此文档下载收益归作者所有