spss聚类分析

spss聚类分析

ID:77037850

大小:1.32 MB

页数:63页

时间:2022-01-22

spss聚类分析_第1页
spss聚类分析_第2页
spss聚类分析_第3页
spss聚类分析_第4页
spss聚类分析_第5页
spss聚类分析_第6页
spss聚类分析_第7页
spss聚类分析_第8页
spss聚类分析_第9页
spss聚类分析_第10页
资源描述:

《spss聚类分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第一节聚类分析核心思想第二节相似性的量度第三节系统聚类分析法第四节K均值聚类分析第五节实例分析与计算机实现聚类分析第一节核心思想“物以类聚,人以群分”。“近朱者赤,近墨者黑”在生物学中,为了研究生物的演变,生物学家需要根据各种生物不同的特征对生物进行分类。在经济学中,根据经济发展的不同阶段对世界各个国家进行分类.医学研究中,阑尾炎类型的划分:性单纯性阑尾炎,急性化脓性阑尾炎,坏疽性及穿孔性阑尾炎。在社会学研究中,需要构造人口生育分类模式、人口死亡分类状况,以此来研究人口的生育和死亡规律。聚类分析的核心思想就是根据具体的指标(变量)对你所研究的样品进行分类.指标是

2、什么?书上的例子.将居民户按户主收入状况进行分类,那么衡量收入状况的指标有:标准工资收入职工奖金…..样品是什么?你所研究的11户居民.进一步解读指标:间隔尺度有序尺度名义尺度思考:能不能对指标进行聚类?第二节相似性的量度一样品相似性的度量二变量相似性的度量一、样品相似性的度量Q型聚类分析,常用距离来测度样品之间的相似程度。选择p个变量对n个样品聚类:可以把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离来度量。:不同的距离公式:1.明考夫斯基距离令dij表示样品Xi与Xj的距离明考夫斯基距离的缺陷:容易受变量的量纲影响.没有考虑

3、变量间的相关性两种改进措施:“马氏距离”法和变量标准化处理法(见书)高校科研的样本学校参加科研人数(人)投入经费(元)立项课题数()1410438000019233617300002134902200008欧氏距离元万元(1,2)26500081.6(1,3)218000193.7(2,3)47000254.8从距离的定义来看,所有变量都会在距离中做出贡献,若变量间存在较高的线形相关性,能够相互替代,那么计算距离就会重复替代,将在距离计算中有较高的权重,从而使最终的聚类结果更倾向此变量2.马氏距离两个样品间的马氏距离为马氏距离又称为广义欧氏距离。优点:(1)考虑

4、了观测变量之间的相关性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵。(2)不再受各指标量纲的影响。4.距离选择的原则(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)要考虑研究对象的特点和计算量的大小。样品间距离公式的选择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个

5、距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方法。二、变量相似性的度量R型聚类分析中,常用相似系数表示变量间的相似性。1、夹角余弦变量i的第k个取值变量j的第k个取值显然,∣cosij∣1。二氧化碳影响因素聚类2.相关系数相关系数经常用来度量变量间的相似性。变量Xi与Xj的相关系数定义为分别为变量i和j的均值显然也有,∣rij∣1。有了对单个样品和单个指标相似形的度量方法后,如何根据类间距离大小和相关系数大小来进行分类呢?会用到以下聚类方法:系统聚类模糊聚类K均值聚类有序样品聚类第三节系统聚类一系统聚类的基本思想二类间距离

6、与系统聚类法三类间距离的统一性一、系统聚类的基本思想系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n个样品(或变量)第一步:将每个样品(或变量)独自聚成一类,共有n类;第二步:根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合为一类,其它的样品(或变量)仍各自聚为一类,共聚成n1类;第三步:将“距离”最近的两个类进一步聚成一类,共聚成n2类;……,以上步骤一直进行下去,最后将所有的样品(或变量)全聚成一类。有两个关键问题:类

7、与类间的距离如何衡量?如何选择分几类呢?二、类间距离最短距离法、最长距离法、类平均法、重心法和离差平方和法等。它们的归类步骤基本上是一致的,主要差异是类间距离的计算方法不同。以下用dij表示样品(指标)Xi与Xj之间距离,用D表示类Gi与Gj之间的距离。1.最短距离法定义类与之间的距离为两类最近样品(指标)的距离,即为............12345.离差平方和法又称为Ward法。如果分类正确,同类样品的离差平方和应当较小,类与类的离差平方和较大。具体做法是先将n个样品各自成一类,然后每次缩小一类,每缩小一类,离差平方和就要增大,选择使方差增加最小的两类合并,

8、直到所有的样品归为一类为

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。