SPSS 软件培训(第三单元)资料ppt课件.ppt

SPSS 软件培训(第三单元)资料ppt课件.ppt

ID:58879732

大小:268.50 KB

页数:114页

时间:2020-09-30

SPSS 软件培训(第三单元)资料ppt课件.ppt_第1页
SPSS 软件培训(第三单元)资料ppt课件.ppt_第2页
SPSS 软件培训(第三单元)资料ppt课件.ppt_第3页
SPSS 软件培训(第三单元)资料ppt课件.ppt_第4页
SPSS 软件培训(第三单元)资料ppt课件.ppt_第5页
资源描述:

《SPSS 软件培训(第三单元)资料ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第八讲 聚类分析、判别分析聚类分析意义聚类分析是统计学中研究“物以类聚”问题的多元统计分析方法。聚类分析在统计分析的应用领域已经得到了极为广泛的应用。聚类分析是一种建立分类的多元统计分析方法,它能够将一批样本(或变量)数据根据诸多特征,按照在性质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果,类内部的个体在特征上具有相似性,不同类间个体特征的差异较大。方法原理按照个体(记录)的特征将它们分类,使同一类别内的个体具有尽可能高的同质性,而类别之间则具有尽可能高的异质性。为了得到比较合理的分类,首先要采用适当的指标来定量地描述研究对象之间的联系的紧密程度。直观的理解为按空

2、间距离的远近来划分类别方法原理假定研究对象均用所谓的“点”来表示。在聚类分析中,一般的规则是将“距离”较小的点归为同一类,将“距离”较大的点归为不同的类。常见的是对个体(Case)分类,也可以对变量(Variable)分类此时一般使用相似系数作为“距离”测量指标方法原理例:根据年龄将人群分成适当的类,从右图可见,人群被分为两类是比较合适的。方法原理在右图中可以看到五个样品应当可能被分为两组或者三组,C/D组x和y的取值均偏低,而另三个所在组x和y的取值均偏高分为两类或三类都是可接受的从图中可以直观的理解“距离”的含义方法原理当用于聚类的变量逐渐增多时,分析思路完全相同,只是这样简单、

3、清晰的图示展现类别情况变得逐渐不大可能多维空间中的观察可能的解决方法放弃图示化观察,改用复杂的统计指标缩减维度,使得可以在低维度空间进行呈现聚类分析的特点聚类分析前所有个体所属的类别是未知的,类别个数一般也是未知的,分析的依据就是原始数据,可能事先没有任何有关类别的信息可参考。严格说来聚类分析并不是纯粹的统计技术,它不像其它多元分析法那样,需要从样本去推断总体。一般都涉及不到有关统计量的分布,也不需要进行显著性检验。聚类分析更像是一种建立假设的方法,而对相关假设的检验还需要借助其它统计方法。聚类分析的用途设计抽样方案分层抽样预分析过程先通过聚类分析达到简化数据的目的,将众多的个体先聚

4、集成比较好处理的几个类别或子集,然后再进行后续的多元分析。细分市场、个体消费行为划分先聚类,然后再利用判别分析进一步研究各个群体之间的差异。聚类分析的步骤步骤1:确定研究问题选择研究目的:分类描述;数据简化;揭示相互联系选择分类变量步骤2研究设计对个体聚类还是对变量聚类?分类变量是什么类型?选择用“距离”还是“相似系数”?是哪一种?数据是否需要标准化?是否需要删除奇异点?步骤3考虑是否满足基本假定样本对总体是否有代表性?聚类变量是否存在共线性?共线性是否足以影响结果?聚类分析步骤步骤4选择聚类方法采用谱系聚类法、非谱系聚类法、还是两者的结合?•采用哪种具体的聚类方法?•应该聚成几个类

5、别?步骤5:解释聚类分析的结果考察类别的中心是否存在显著的差异?观察树形图和冰柱图是否可以根据分类变量给各个类别命名?步骤6:评价聚类分析结果的有效性利用适当的结果变量进行评价;利用其它描述性的变量描述各个类别的轮廓。评定聚类结果的标准一个好的聚类分析是:Efficient.尽可能少的分类数.Effective.寻找到无论在统计上还是在商业上都重要的分类.比如,一个类中含有5个客户,也许在统计上是有意义的,但是在商业上却没有利用价值TWOSTEPCLUSTER特点处理对象:分类变量和连续变量自动决定最佳分类数快速处理大数据集前提假设:变量间彼此独立分类变量服从多项分布,连续变量服从正

6、态分布模型稳健步骤:建立ClusterFeatures(CF)Tree确定最佳聚类数分析实例:某汽车制造商为了了解整个汽车市场的形势,希望根据汽车的基本属性和价钱对其进行分类,以有效地提高竞争力。数据:car_sales.savcategoricalvariable:Vehicletypecontinuousvariables:Priceinthousands~FuelefficiencyTWOSTEPCLUSTERHIERARCHICALCLUSTER属于系统聚类法的一种其聚类过程可以用树形结构(treelikestructure)来描绘的方法方法原理先将所有n个变量/观测看成不同

7、的n类然后将性质最接近(距离最近)的两类合并为一类再从这n-1类中找到最接近的两类加以合并依此类推,直到所有的变量/观测被合为一类使用者再根据具体的问题和聚类结果来决定应当分为几类即可进入HierarchicalCluster主菜单,或K-MeansCluster主菜单。下面对利用这两个过程进行聚类的步骤和主要选项加以介绍。1.HierarchicalCluster进行层次聚类有以下步骤:(1)指定参与聚类的变量将选定的变量放到“Variables”下的矩

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。