欢迎来到天天文库
浏览记录
ID:41074405
大小:565.51 KB
页数:47页
时间:2019-08-15
《SPSS数据分析教程-10聚类分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、SPSS数据分析教程—《SPSS数据分析教程》第10章 聚类分析目录10.1聚类分析简介10.2个案间的距离10.2.1定距数据(ScaleMearsurement)距离定义方式10.2.2分类数据的频数数据(Count)10.2.3二分类数据10.3类之间的距离10.4系统聚类算法过程10.5系统聚类案例10.6K-均值聚类10.6.1K-均值法简介10.5.2K-均值法案例10.7两步法聚类10.7.1两步法简介10.7.2两步法案例分析10.8聚类分析注意事项本章学习目标理解聚类分析的基本概念;了解个案之间距离的定义方式;了解类之间
2、距离的定义方式;掌握系统聚类方法;掌握两步法聚类方法;掌握K均值聚类方法。10.1聚类分析简介根据对象的某些属性把它们分到一些组中,使得同组内的对象尽可能地相似,不同组中的对象尽可能地不一样,即所谓的聚类分析。聚类分析方法被称为“无监督的分析方法”,意即没有因变量。而另外一种分类的方法是判别分析,它是把样本归入到已知的事先已经确定下来的类中去,它有因变量(即事先确定的类别),是“有监督的分析方法”。聚类分析不必事先知道分类对象的结构,从一批样品的多个观测指标中,找出能度量样品之间或指标(变量)之间相似程度或亲疏关系的统计量,构成一个对称相似
3、性矩阵,并按相似程度的大小,把样品或变量逐一归类。根据对样品聚类还是对变量聚类,聚类分析分Q型聚类和R型聚类。对变量的聚类称为R型聚类,而对样品(即观测值)聚类称为Q型聚类。通俗讲,R型聚类是对数据中的列分类,Q型聚类是对数据中的行分类。SPSSStatistics提供了3种聚类方法,它们是系统聚类法(又称层次聚类)、K-均值聚类(又称快速聚类法)和两步法聚类。10.2个案间的距离定距数据距离定义方式欧式(Euclidean)距离平方欧式距离余弦距离皮尔逊(Pearson)相关性距离切比雪夫(Chebychev)距离块(Block)距离闵考
4、斯基(Minkowski)距离幂(Power)距离10.2.2分类数据之间的距离卡方度量Phi方度量10.3类之间的距离SPSS提供了7种计算两个类距离的方法。组间连接法(Between-groupsLinkage)组内连接法(Within-GroupsLinkage)最近邻元素法(NearestNeighbor)最长距离法(FurthestNeighbor)质心聚类法(CentroidClustering)中位数聚类法(MedianClustering)离差平方和法(Ward’sMethod)10.4系统聚类算法过程系统聚类的步骤第1步:
5、数据标准化。把原始数据标准化得到标准化数据矩阵。第2步:计算相似系数矩阵。这里以余弦距离为例。计算Q型聚类任意两个样品xj和xk的相似系数矩阵。第3步:选出有最大相似系数的样品组。第4步:把该组样品加权平均,这样就形成了一个新的组合样品。第5步:用新的样品类代替原来的一对样品点。第6步:对新形成的样品与其余样品数据重新计算相似系数矩阵。第7步:如此重复第2步到第5步的过程,直到把所有样品都归类完毕。第8步:最后,按下列原则构成类关系图。若两个样品在已经连接成的组中未出现过,则它们连接成一个新组。若两个样品中有一个在某组中出现过,则另一个就加
6、入该组。若两个样品都在同一组中,则这对样品不再分组。若两个样品都在不同组中出现过,则把这两组连接在一起。10.5系统聚类案例打开本章的数据文件Cluster_cars.sav。该数据是市场上一些品牌汽车的资料,它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱,还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。按照这些数据对当前市场上的车进行聚类,看看哪些品牌的车定位有类似之处,制造商可以据此制定相应的策略。选择【分析】→【分类】→【系统聚类】把从“Priceinthousand”到“Fuelefficiency”的所
7、有变量选入右边的“变量框”。把“Model”变量选入“标注个案”框。依次单击【统计量】、【绘制】、【方法】和【保存】按钮10.6K-均值聚类K-均值聚类的算法过程第1步:用户给定聚类个数K。第2步:给出初始类中心。第3步:计算所有个体到这K个类中心的距离,然后按照到K个类中心距离最短原则,把所有个体分别划分到距最近的中心点所在的类中,这样形成了K个类,完成一次迭代过程。第4步:重新计算K个类的类中心。第5步:重复进行第3步、第4步。直到迭代次数达到限制的次数或者类中心不再变化为止。K-均值法案例打开本章的数据文件Cluster_cars.s
8、av。该数据是市场上一些品牌汽车的资料,它包括汽车制造商、型号、新车价钱、4年以后的二手车价钱,还有功率、引擎大小、车重、车体长、车体宽、车轮大小、油耗等诸多属性。按照这些数据对
此文档下载收益归作者所有