spss的聚类分析

spss的聚类分析

ID:41322123

大小:677.50 KB

页数:39页

时间:2019-08-22

spss的聚类分析_第1页
spss的聚类分析_第2页
spss的聚类分析_第3页
spss的聚类分析_第4页
spss的聚类分析_第5页
资源描述:

《spss的聚类分析》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第六章聚类分析把对象分类—1分类俗语说,物以类聚、人以群分。当有一个分类指标时,分类比较容易。但是当有多个指标,要进行分类就不是很容易了。比如,要想把中国的县分成若干类,可以按照自然条件来分:考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;聚类分析由于不同的指标项对重要程度或依赖关系是相互不同的,所以也不能用平均的方法,因为这样会忽视相对重要程度的问题。所以需要进行多元分类,即聚类分析。最早的聚类分析是由考古学家在对考古分类中研究中发展起来的,同时又应用于昆虫的分类中,此后又广泛地应用在天气、生物等方面。聚类分析对于一批数据,人们既可以对变量(指标)

2、进行分类(相当于对数据中的列分类),也可以对观测值(事件,样品)来分类(相当于对数据中的行分类)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。如何聚类?聚类分析就是要找出具有相近程度的点或类聚为一类;如何衡量这个“相近程度”?就是要根据“距离”来确定。这里的距离含义很广,凡是满足4个条件(后面讲)的都是距离,如欧氏距离、马氏距离…,相似系数也可看作为距离。距离和相似系数距离什么是距离?首先我们看样本数据:一般满足以下四个条件时,就称为距离:常用距离——明氏距离Minkowski距离:当q=1时:当q=2时:当q=∞时改进:1)各指标测量值

3、相差悬殊时,数据标准化处理后再计算距离xij>0时,LanceWilliams距离2)马氏距离明氏距离的缺点:1)距离大小与各指标的观测单位有关2)没有考虑指标间的相关性分类变量距离测度简单匹配系数:是测度二分类变量的,是度量两个案例在所有的聚类变量上答案相同的情况出现的频率。个体j个体i101ab0cda为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时拥有或同时不拥有某特征的情况;取0和1地位等价,编码方案的变化不会引起系数的变化。例姓名授课方式上机时间选某门课程张三111李四110王五001(张三,李四):a=2b=1c=0d=0d(x,y)=1/(1+2)

4、=1/3(张三,王五):a=1b=2c=0d=0d(x,y)=2/(1+2)=2/3张三距李四近关联测度雅科比系数:是在简单匹配系数基础上进行的改进,也是度量二分类变量的。个体j个体i101ab0cda为个体i与个体j在所有变量上同时取1的个数;d为同时取0的个数特点:排除同时不拥有某特征的情况;取1的状态比取0更有意义(如:临床检验中的阳性特征);编码方案会引起系数的变化分类变量距离测度姓名授课方式上机时间选某门课程张三1(0)1(0)1(0)李四1(0)1(0)0(1)王五0(1)0(1)1(0)(张三,李四)1:a=2b=1c=0d=0d(x,y)=1/(1+2)=1/3(张三,李四

5、)2:a=0b=0c=1d=2d(x,y)=1/(1+2)=1/3(相同)(张三,李四)1:a=2b=1c=0d=0J(x,y)=1/(1+2)=1/3(张三,李四)2:a=0b=0c=1d=2J(x,y)=1/1=1(不相同)相似系数夹角余弦—cosine尽管图中AB和CD长度不一样,但形状相似。当长度不是主要矛盾时,就可利用夹角余弦这样的相似系数。相似系数相关系数也可用相关系数来刻画样品之间的相似关系。把两两样品的相关系数都计算出来,可形成样品相关系数矩阵。系统聚类法系统聚类法的步骤可选择适当的距离,计算距离把每个样品看成一类,构造n个类合并最近的两类为一新类计算新类与当前各类的距离判

6、断画聚类图根据实际情况,确定类和类的个数仅有一个类不是仅有一个类采用系统聚类法系统聚类法最短距离法——NearestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G501.5053.5073.53.50系统聚类法最长距离法——FurthestNeighborG1G2G3G4G5G1G2G3G4G50102.51.50653.50875.520G6G3G4G5G6G3G4G502.5063.5083.53.50系统聚类法重心法——CentroidClustering类平均法——Between-groupsLi

7、nkage系统聚类法离差平方和法——Word’sMethod它的思想来源于方差分析此外,还有中间距离法、类内平均法等。SPSS中的聚类分析与过程例9.1饮料数据(drink.sav)16种饮料的热量、咖啡因、钠及价格四种变量SPSS中的聚类分析Spss中的聚类功能常用的有两种:快速聚类(迭代过程):K-MeansCluster分层聚类:HierarchicalK-MeansCluster原理首先,选择n个数值型变量参与聚

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。