欢迎来到天天文库
浏览记录
ID:1966190
大小:228.50 KB
页数:8页
时间:2017-11-14
《多元统计分析(聚类分析)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、应用多元统计分析第五章聚类分析主讲:孔幸组员:杨海生王晶晶田艳霞龚禄娃第五章聚类分析习题5.8试使用系统聚类法和K-均值法分别对这些地区进行聚类分析,并对结果进行比较分析。将数据导入SPSS,分析得到以下结果:5.8.1系统聚类分析(类平均法)1.系统聚类分析树状图使用平均联接(组间)的树状图重新调整距离聚类合并图5.8-1系统聚类法树状图如图5.8-1所示,选择的聚类方法为类平均法,计算距离的方法(或相似性的度量方法)为欧氏距离平方。从树状图可见,将16个地区分成4类:第一类:上海,经济相对发达地区,农民每人平均生活消费支出情况的六个经济指标相对于16个地区来说都比较大,说明上海农民的平
2、均生活消费水平在16个地区中最高的。第二类:北京和浙江,经济中上等地区,农民每人平均生活消费支出的六个经济指标相对于其他的13个地区(除上海外)都比较高,说明北京和浙江地区农民的平均生活消费水平在16个地区中属于中上等水平。第三类:天津、江苏、辽宁、福建、江西、安徽、内蒙古、黑龙江和吉林,经济中等地区,这7个地区农民的平均生活消费水平在16个地区中属于中等水平。第四类:河北、河南、山西和山东,经济中下等地区,这4个地区农民的平均生活消费水平在16个地区中中下等水平,即在16个地区中是相对较低的。5.8.2K-均值法通过上述的系统聚类分析(类平均法)我们发现,16个地区农民的平均生活消费水平
3、可以分成4类,因此,我们运用K-均值法做快速聚类分析时,将16个地区聚成的类数设定为4类。在SPSS中的运行结果解释具体如下:1.首先分析方差分析表,见表5.8-1表5.8-1方差分析表聚类误差FSig.均方df均方df食品5127.237396.7841252.9760.000衣着100.666328.916123.4810.050燃料24.794311.122122.2290.137住房3015.5423124.8621224.1510.000交通和通讯341.567360.105125.6830.012娱乐教育文化4.53932.555121.7770.205从表5.8-1中可见,聚
4、成的四类在食品、衣着、燃料、住房、交通和通讯以及娱乐教育文化六个经济指标的均值间无差异的原假设下,出现目前值或更极端值的概率分别为0.000、0.050、0.137、0.000、0.012和0.205,故变量食品、衣着、住房以及交通和通讯在分类过程中均在统计学上有显著性意义(P=0.000、0.050、0.000和0.012都小于或等于0.05),而燃料和娱乐教育文化变量无统计学上的显著性意义(P=0.137和0.205大于0.05),因此,有必要在剔除燃料和娱乐教育文化变量后重新做聚类分析。剔除燃料和娱乐教育文化后重新做的聚类分析结果解释如下:2.迭代过程分析表5.8-2迭代过程中类中心
5、得变化量迭代聚类中心内的更改1234115.3050.00012.19522.66420.0000.0000.0000.000表5.8-2显示了迭代过程的基本情况,它表明迭代到第二次时,类中心点已没有太大变化达到收敛。3.给出个观测量所属的类及与所属类中心的距离表5.8-3各观测量所属类成员表地区聚类距离地区聚类距离北京115.305上海20.000天津424.186江苏417.877河北312.195浙江115.305山西311.569安徽411.564内蒙古418.423福建410.319辽宁414.599江西413.464吉林422.664山东319.847黑龙江312.010河南3
6、6.823表5.8-3中聚类列给出了观测量所属的类别,距离列给出了观测量与所属类中心的距离。4.给出聚类结果形成的中心的各变量值表5.8-4最终的类中心表聚类1234食品180.13221.11106.65141.78衣着38.1738.6426.2328.15住房53.83115.6519.9825.09交通和通讯41.6850.8223.426.01结合表5.8-3和表5.8-4,我们可以看出16个地区被分成4类,第一类包括:北京和浙江,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为180.13、38.17、53.83和41.68,这类地区农民每人平均生活消费水平在16
7、个地区中属于中上等。第二类为上海,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为221.11、38.64、115.65和50.82,上海农民每人平均生活消费水平在16个地区中属于最高的。第三类包括:河北、山西、黑龙江、山东和河南,这一类的类中心食品、衣着、住房以及交通和通讯的经济指标值分别为106.65、26.23、19.98和23.4,这类地区农民每人平均生活消费水平在16个地区中属于中等。第四类包括:
此文档下载收益归作者所有