第十二章聚类分析

第十二章聚类分析

ID:41566393

大小:170.68 KB

页数:10页

时间:2019-08-27

第十二章聚类分析_第1页
第十二章聚类分析_第2页
第十二章聚类分析_第3页
第十二章聚类分析_第4页
第十二章聚类分析_第5页
资源描述:

《第十二章聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第十二章聚类分析聚类分析(CLUSTER)是将样本或变量进行分类的一种方法。通常用相似性指标“距离”和“相似系数”来衡量研究对象的联系紧密程度,从而进行合理分类。“距离”常用來对样本分类,即把每一个样本看作是m维空间(若样本被m个变量所描述)的一个点,把距离较近的点归为一类,距离较远的点归为不同的类。“相似系数”用来对变量分类,将变量间相似系数较人的归为一类,较小的归为不同类。第一节距离和相似系数一、距离1、“欧几里得”距离A和B两点由m个变量所描述,其坐标分别是(xi,X2,…,xj和(y】,y2,…,y„.),那么d(A

2、,B)=例如:某次收视率调查屮的部分数据如表1,则1号被访者和2号被访者的“距离”为:d(A,B)二7(25-60)2+(16-6)2+(40-120)2+...表1:原始数据被访者年龄(岁)文化程度(年)Fl收看电视时间(分)X】x2x31251640260612034212906003414150X]—41fSi二20%2S?=5—90,S3—40上述测量的距离存在问题:(1)同一个变量单位不同会导致不同的距离;(2)不同变量的度量不一致,无法判断变量值大小和变量的重耍程度,从而无法判断距离的意义。因而需要对原始数据进行

3、标准化。表2:标准化数据被访者年龄(岁)文化程度(年)H收看电视时间(分)Xix2X31-0.80.81.2520.95-1.20.7530.050.00.00600-0.350.41.50X]二0,Si=lX2=0,S2=lX3-0,S3-I2、SPSS聚类分析中提供的距离(1)欧式距离(EUCLID),等于J变量差变量差J...(2)欧式距离的平方(SEUCLID),等于变量差稈变量差2+……(3)曼哈顿距离(BLOCK),等于变量差的绝对值之和(4)切比雪夫距离(CHEBYCIIEV),等于变量差中绝对值最大者(5)幕

4、距离POWER(p,r),等于变量差的绝对值的p次方之和,再求r方根。2、相似系数(1)变量间的相关系数即皮尔逊相关系数;(2)变量间的夹角余弦,即将两变量分别看成n维空间的向量时的夹角余弦值。相关系数一般针对定距变量,对于定类变量特别是二项变量也可引入虚拟变量后计算相关系数。X】x2X3Xix5X6个体1000101个体2111000个体3010100个体4001001•表3可转化为表4:1,用左手0.用右手1,女0.男1,身高Ml70»;2=0.身爲V1701,高鼻梁0■低鼻梁例1:假定5个样本(人)具有如下指标:(1

5、)请对个体进行分类;(2)对变量身高(cm)体重(公斤)眼睛形状鼻了形状习惯用手性别个体1166120单右女个体2175145双低右男个体3168135单右男个体4167100双低右女个体5174150双低左男进行分类。表3:五个人的六种身体特征指标1,双眼皮0.单眼皮解:变華屮包含定距和定类变華,可以全部变成虚拟娈量(也可将后四个虚拟),令XL1,体重>130»;x3=0,体®<130I个体5111010(1)根据対个个体共同特征的多少来对个体分类,以欧式距离的平方来进行聚类,个体Z间的距离越小越相似,可求得:d2(l,2

6、)=(0-1)2+(0-1)24-(0-1)2+(1-0)2+(0-0)2+(1-0)2=5;d2(l,3)=(0-0)2+(0-1)2+(0-0)2+(1-1)2+(0-0)2+(1-0)彳二2;d2(l,4)=(0-0)2+(0-0)2+(0-l)2+(l-0)2+(0-0)2+(l-l)2=2;d2(l,5)=(0-l)2+(0-l)2+(0-l)2+(l-0)2+(0-l)24-(l-0)2=6;同理计算其他距离,得到下表:表5:5个体间距离(2)对特征变量进行分类,先计算两个变量间的相似系数:工(X厂^)(X2-片

7、2)工%:乙)2工(X

8、-0.4)(X2-0.6)J工%-0.4)2J工(X2-0.6)2=0.6667同理计算其它相关系数:表6:六个变量间的相关系数12345611.000020.66671.000030.66670.16671.00004-0.6667-0.1667-1.00001.000050.61240.40820.4082-0.40821.00006-0.6667-1.0000-0.16670.1667-0.40821.0000表6屮出现负相关系数,不予考虑符号,仅以绝对值來表示相关程度。X2与X6,X占X4两对

9、变量最相似,同时X2和X3、X4,Xe和X3、K1之间相关系数很小,所以{心沧}和{X3,XJ是几乎不相交的两类。Xi、X5和其它5个变量的相关关系都适屮,所以二者都不宜于其它变量合并,将X】和沧单独归为一类。几个注意问题:(1)对个体进行聚类时,1-1匹配和0-0匹配是完全同等看待,实际

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。