欢迎来到天天文库
浏览记录
ID:43020328
大小:179.50 KB
页数:12页
时间:2019-09-25
《[经管营销]spss资料分析聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、聚类分析与判别分析的基本概念;层次聚类分析中的Q型聚类;层次聚类分析中的R型聚类;快速聚类分析;判别分析第7章资料分析(四)——聚类分析一、聚类分析与判别分析的基本概念分类统计方法主要有聚类分析(clusteranalysis)与判别分析(discriminantanalysis)。其屮聚类分析是统计学屮研究这种“物以类聚订可题的一•种有效方法,它属T统计分析的范畴。聚类分析的实质是建立-•种分类方法,它能够将一批样木数据按照他们在性质上的亲密程度在没有先验知识的情况下n动进行分类。这里所说的类就是一个具有相似性的个体的集合,不同类之间具有明显区别。聚类分析是一种
2、探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。因此我们说聚类分析是一种探索性的分析方法。聚类分析的方法,主要有两种,一种是“快速聚类分析方法"(K—MeansClusterAnalysis),另一种是“层次聚类分析方法”(HierarchicalClusterAnalysis)。如果观察值的个数多或文件非常庞大(通常观察值在200个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,层次聚类分析
3、的两种判別图形会过于分散,不易解释。判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是,判别分析时,组别的特征已知。如银行为了对贷款进行管理,需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年屮,900个客户的贷款归还信誉度,据此可以将客户分成两组:可靠客户和不可靠客户。再通过收集客户的一些资料,如年龄、工资收入、教育程度、存款等,将这些资料作为口变量。通过判別分析,建立判别函数。那么,如果有150个新的客户提交贷款请求,就可以利用创建好的判别函数,对新的客户进行分析,从而判断新的客户是属于可靠客户类,还是不可靠客户类。二、层次聚类分析中的Q型
4、聚类层次聚类分析是根据观察值或变量Z间的亲疏程度,将最和似的对象结合在一起,以逐次聚合的方式(AgglomerativeClustering),它将观察值分类,直到最后所有样木都聚成一类。层次聚类分析有两种形式,一种是对样木(个案)进行分类,称为Q型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析;另一种是对研究对象的观察变量进行分类,称为R型聚类。它使具有共同特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变量的个数。层次聚类分析中,测量样本Z间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏程度的计算:一种是样木
5、数据之间的亲疏程度,一种是样木数据与小类、小类与小类z间的亲疏程度。卜•面讲述这两种类型亲疏程度的计算方法和公式。样木若有k个变量,则可以将样木看成是一个k维的空间的一个点,样本和样本之间的距离就是k维空间点和点之间的距离,这反映了样木之间的亲疏程度。聚类时,距离相近的样木属于一个类,距离远的样木属于不同类。1.连续变量的样本距离测量方法(1)欧氏距离(EuclideanDistance)两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为(1)欧氏距离平方(SquaredEuclideanDistance)两个样本之间的欧氏距离平方是各样本每个
6、变量值之差的平方和,计算公式为(2)Chebychev距离两个样本之间的Chebychev距离是各样本所有变量值Z差绝对值中的最大值,计算公式为(3)Block距离两个样本Z间的Block距离是各样本所有变量值Z差绝对值的总和,计算公式为(4)Minkowski距离两个样本乙间的Minkowski距离是各样本所有变量值Z差绝对值的p次方的总和,再求p次方根。计算公式为(5)Customized距离(用户自定义距离)两个样木之间的Customized^离是各样本所有变量值之差绝对值的p次方的总和,再求q次方根。计算公式为连续变量亲疏程度的度量,除了上面的各种距离外,
7、还可以计算其他统计指标。如Pearson相关系数、Sosine相似度等。1.连续变量的样本亲疏程度的其他测量方法3•顺序或名义变量的样本亲疏程度测量方法对于此类变量,可以计算一些有关相似性的统计指标来测定样本间的亲疏程度。也可以通过下面两个计算公式来得到。所谓小类,是在聚类过程中根据样本之间亲疏程度形成的中间类,小类和样本、小类与小类继续聚合,最终将所有样本都包括在一个大类中。在SPSS聚类运算过程中,需要计算样本与小类、小类与小类Z间的亲疏程度。SPSS提供了多种计算方法(计算规则)。4.样本数据与小类、小类与小类Z间的亲疏程度测量方法4.1最短距离(Neare
8、stNei
此文档下载收益归作者所有