第十二章 聚类分析教程文件.doc

第十二章 聚类分析教程文件.doc

ID:60783069

大小:212.50 KB

页数:11页

时间:2020-12-18

第十二章  聚类分析教程文件.doc_第1页
第十二章  聚类分析教程文件.doc_第2页
第十二章  聚类分析教程文件.doc_第3页
第十二章  聚类分析教程文件.doc_第4页
第十二章  聚类分析教程文件.doc_第5页
资源描述:

《第十二章 聚类分析教程文件.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、精品好文档,推荐学习交流第十二章聚类分析聚类分析(CLUSTER)是将样本或变量进行分类的一种方法。通常用相似性指标“距离”和“相似系数”来衡量研究对象的联系紧密程度,从而进行合理分类。“距离”常用来对样本分类,即把每一个样本看作是m维空间(若样本被m个变量所描述)的一个点,把距离较近的点归为一类,距离较远的点归为不同的类。“相似系数”用来对变量分类,将变量间相似系数较大的归为一类,较小的归为不同类。第一节距离和相似系数一、距离1、“欧几里得”距离A和B两点由m个变量所描述,其坐标分别是(x1,x2,…,xm)和

2、(y1,y2,…,ym),那么d(A,B)=。例如:某次收视率调查中的部分数据如表1,则1号被访者和2号被访者的“距离”为:d(A,B)=表1:原始数据被访者年龄(岁)文化程度(年)日收看电视时间(分)……X1X2X3……1251640……2606120……3421290…………………………6003414150……=41,S1=20=12,S2=5=90,S3=40……上述测量的距离存在问题:(1)同一个变量单位不同会导致不同的距离;(2)不同变量的度量不一致,无法判断变量值大小和变量的重要程度,从而无法判断距离

3、的意义。因而需要对原始数据进行标准化。表2:标准化数据被访者年龄(岁)文化程度(年)日收看电视时间(分)……X1X2X3……1-0.80.81.25……20.95-1.20.75……仅供学习与交流,如有侵权请联系网站删除谢谢11精品好文档,推荐学习交流30.050.00.00…………………………600-0.350.41.50……=0,S1=1=0,S2=1=0,S3=1……2、SPSS聚类分析中提供的距离(1)欧式距离(EUCLID),等于(2)欧式距离的平方(SEUCLID),等于变量差2+变量差2+……(3)

4、曼哈顿距离(BLOCK),等于变量差的绝对值之和(4)切比雪夫距离(CHEBYCHEV),等于变量差中绝对值最大者(5)幂距离POWER(p,r),等于变量差的绝对值的p次方之和,再求r方根。2、相似系数(1)变量间的相关系数即皮尔逊相关系数;(2)变量间的夹角余弦,即将两变量分别看成n维空间的向量时的夹角余弦值。相关系数一般针对定距变量,对于定类变量特别是二项变量也可引入虚拟变量后计算相关系数。例1:假定5个样本(人)具有如下指标:(1)请对个体进行分类;(2)对变量进行分类。表3:五个人的六种身体特征指标身高

5、(cm)体重(公斤)眼睛形状鼻子形状习惯用手性别个体1166120单高右女个体2175145双低右男个体3168135单高右男个体4167100双低右女个体5174150双低左男1,双眼皮0,单眼皮1,体重≥1300,体重<1301,身高≥1700,身高<170解:变量中包含定距和定类变量,可以全部变成虚拟变量(也可将后四个虚拟),令X1=;X2=;X3=;1,高鼻梁0,低鼻梁1,女0,男1,用左手0,用右手X4=;X5=;X6=,表3可转化为表4:X1X2X3X4X5X6个体1000101个体2111000个体

6、3010100个体4001001仅供学习与交流,如有侵权请联系网站删除谢谢11精品好文档,推荐学习交流个体5111010(1)根据两个个体共同特征的多少来对个体分类,以欧式距离的平方来进行聚类,个体之间的距离越小越相似,可求得:d2(1,2)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-0)2+(1-0)2=5;d2(1,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)2=2;d2(1,4)=(0-0)2+(0-0)2+(0-1)2+(1-0)2+(0-0)

7、2+(1-1)2=2;d2(1,5)=(0-1)2+(0-1)2+(0-1)2+(1-0)2+(0-1)2+(1-0)2=6;同理计算其他距离,得到下表:表5:5个体间距离1234510250323042340561440根据距离大小,判断相似程度。个体2和5距离最小,最相似。1和3,1和4距离较小,较相似。如果分两类,则可分为{1,5}和{1,3,4}。(2)对特征变量进行分类,先计算两个变量间的相似系数:r12===0.6667同理计算其它相关系数:表6:六个变量间的相关系数12345611.000020.6

8、6671.000030.66670.16671.00004-0.6667-0.1667-1.00001.000050.61240.40820.4082-0.40821.00006-0.6667-1.0000-0.16670.1667-0.40821.0000表6中出现负相关系数,不予考虑符号,仅以绝对值来表示相关程度。X2与X6,X3与X4两对变量最相似,同时X2和X3、

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。