欢迎来到天天文库
浏览记录
ID:62165564
大小:134.55 KB
页数:4页
时间:2021-04-20
《K-均值聚类法实例解析.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、例:为了更深入了解我国环境的污染程度状况,现利用2009年数据对全国31个省、自治区、直辖市进行聚类分析。解:现在要分析我国各个地区的环境污染程度,案例中选择了各地区“工业废气排放总量”、“工业废水排放总量”和“二氧化硫排放总量”三个指标来反映不同污染程度的环境状况,同时选择了北京等省市的数据加以研究。这个问题属于典型的多元分析问题,需要利用多个指标来分析各省市之间环境污染程度的差异。因此,可以考虑利用快速聚类分析来研究各省市之间的差异性,具体操作步骤如下。1)打随书光盘中的数据文件9-2.sav,选择菜单栏中的
2、【Analyze(分析)】→【Classify(分类)】→【K-MeansCluster(K均值聚类)】命令,弹出【K-MeansClusterAnalysis(K均值聚类分析)】对话框。2)在左侧的候选变量列表框中将X1、X2和X3变量设定为聚类分析变量,将其添加至【Variables(变量)】列表框中;同时选择Y作为标识变量,将其移入【LabelCasesby(个案标记依据)】列表框中。3)在【NumberofClusters(聚类数)】文本框中输入数值“3”,表示将样品利用聚类分析分为三类,如下图所示。4)
3、单击【Save(保存)】按钮,弹出【K-MeansClusterAnalysis:Save(K均值聚类分析:保存)】对话框;勾选【Clustermembership(聚类新成员)】和【Distancefromclustercenter(与聚类中心的距离)】复选框,表示输出样品的聚类类别及距离,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框。1)单击【Options(选项)】按钮,弹出【K-MeansClusterAnalysis:Options(K均值聚类分析:选项】对话框
4、;勾选【Statistics(统计量)】选项组中的复选框,其他选项保持系统默认设置,如下图所示,单击【Continue(继续)】按钮返回主对话框,单击【OK(确定)】按钮完成操作。实例结果及分析(1)快速聚类分析的初始中心SPSS软件首先给出了进行快速聚类分析的初始中心数据。由于这里是要求将样品分为三类,因此软件给出了三个中心位置。但是,这些中心位置可能在后续的迭代计算中出现调整。(2)迭代历史表下表显示了快速聚类分析的迭代过程。可以看到,第一次迭代的变化值最大,其后随之减少。最后第三次迭代时,聚类中心就不再变化
5、了。这说明,本次快速聚类的迭代过程速度很快。(3)聚类分析结果列表通过快速聚类分析的最终结果列表可以看到整个样品被分为以下三大类。第一类:北京、天津、山西、内蒙古等20个地区。这些地区工业废水、废气及二氧化硫的排放总量相对最低。第二类:河北、福建、河南、湖北、湖南、广西和四川。它们的污染程度在所有省份中位居中等水平。第三类:江苏、浙江、山东和广东。这些地区的工业废水、废气及二氧化硫排放总量是最高的,因此环境污染也最为严重。表中最后一列显示了样品和所属类别中心的聚类,此表中的最后两列分别作为新变量保存于当前的工作文
6、件中。(4)最终聚类分析中心表如下表所示列出了最终聚类分析中心。可以看到,最后的中心位置较初始中心位置发生了较大的变化。(5)最终聚类中心位置之间的距离如下表所示为快速聚类分析最终确定的各类中心位置的距离表。从结果来看,第一类和第三类之间的距离最大,而第二类和第三类之间的距离最短,这些结果和实际情况是相符合的。(6)方差分析表如下表所示为方差分析表,显示了各个指标在不同类的均值比较情况。各数据项的含义依次是:组间均方、组间自由度、组内均方、组内自由度。可以看到,各个指标在不同类之间的差异是非常明显的,这进一步验证
7、了聚类分析结果的有效性。(7)聚类数目汇总如下表所示是聚类数据汇总表,显示了聚类分析最终结果中各个类别的数目。其中第一类的数目最多,等于20;而第三类的数目最少,只有4个。
此文档下载收益归作者所有