多元统计分析 k聚类(方法+步骤+分析 总结)

多元统计分析 k聚类(方法+步骤+分析 总结)

ID:17462754

大小:174.50 KB

页数:5页

时间:2018-09-01

多元统计分析 k聚类(方法+步骤+分析 总结)_第1页
多元统计分析 k聚类(方法+步骤+分析 总结)_第2页
多元统计分析 k聚类(方法+步骤+分析 总结)_第3页
多元统计分析 k聚类(方法+步骤+分析 总结)_第4页
多元统计分析 k聚类(方法+步骤+分析 总结)_第5页
资源描述:

《多元统计分析 k聚类(方法+步骤+分析 总结)》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、K聚类一、实验过程1.将数据5.7导入至SPSS中,分析-分类-K均值聚类分析,将8个行业放到变量中,地区放到labelcases中,设定聚类数=3。2.点击“迭代”,设定最大迭代次数为10,迭代标准为0,点击继续3.点击“保存”,选择“聚类成员”及“与聚类中心的距离”4.点击“选项”,选择如下点击继续5.点击确定后,得到如下实验结果:二、实验结果分析:1.给出初始的聚类中心初始聚类中心聚类123工业1109.912322.56191.49建筑业207.72181.8930.13交通运输仓储和邮政业263.11327.6731.05批发和零售业425.2

2、9472.9435.25住宿和餐饮业118.8694.6610.50金融业543.97379.7119.05房地产业296.04380.2721.32其他服务业1448.84943.6992.872.给出每次迭代结束后类中心的变动迭代历史记录a迭代聚类中心内的更改1231583.084388.520349.2952326.648.00058.1253103.704.00024.5484.000.000.000a.由于聚类中心内没有改动或改动较小而达到收敛。任何中心的最大绝对坐标更改为.000。当前迭代为4。初始中心间的最小距离为1329.460。从表中可

3、以看出共经历了4次迭代,即4次迭代后,聚类中心的变化为0,迭代停止。3.给出各观测量所属的类及所属类中心的距离聚类成员案例号地区聚类距离1北京1999.7002天津2388.5203河北3255.9694山西3206.5135内蒙古3222.2866辽宁3429.4547吉林388.4208黑龙江3281.1449上海2388.52010江苏1287.25611浙江1205.69112安徽3137.53513福建3397.27414江西3117.82715山东1414.81516河南3116.88517湖北332.94818湖南387.84619广东11

4、96.59020广西3166.99521海南3241.25922重庆365.71123四川3133.94524贵州3269.40825云南3179.72426西藏3391.78127陕西336.52928甘肃3179.02229青海368.75130宁夏358.37831新疆371.101表中,聚类一列中给出观测量所属的类别,距离列给出了观测量与所属聚类中心的距离。4.给出聚类结果形成的聚类中心的各变量值。最终聚类中心聚类123工业1165.952064.94428.07建筑业143.78170.5882.50交通运输仓储和邮政业135.89272.73

5、73.91批发和零售业263.39445.5589.18住宿和餐饮业61.3680.9626.04金融业176.16266.1928.29房地产业152.99251.8638.64其他服务业559.62717.59185.03综合第三个表及第四个表,可以看出将31个地区按8个产业分成3类后,北京,江苏,浙江,山东,广东为第一类。这一类聚类中心8个产业的产值分别为1165.95,143.78,135.89,263.39,61.36,176.16,152.99,559.62亿元。第二类包括天津和上海,剩下的24个地区为第三类。5.聚类中心间的距离最终聚类中心

6、间的距离聚类1231950.808871.1562950.8081800.6463871.1561800.646表中给出的是三类聚类中心间的距离6.进行单因素方差分析ANOVA聚类误差FSig.均方df均方df工业3258486.158239044.9782883.455.000建筑业13391.3362949.4772814.104.000交通运输仓储和邮政业41058.33621657.8272824.766.000批发和零售业162409.45522680.0272860.600.000住宿和餐饮业4812.3322258.6792818.603.

7、000金融业87447.42827226.9582812.100.000房地产业62084.00922421.2872825.641.000其他服务业495176.321241907.0832811.816.000F检验应仅用于描述性目的,因为选中的聚类将被用来最大化不同聚类中的案例间的差别。观测到的显著性水平并未据此进行更正,因此无法将其解释为是对聚类均值相等这一假设的检验。结果显示,8个变量在三个类别中均存在显著差异,说明结果有效。7.最终分类各类中的地区数每个聚类中的案例数聚类15.00022.000324.000有效31.000缺失.000综合上

8、述表格,按照个产业的发展水平将中国31个地区分成3类:第一类为北京,江苏,浙江,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。