6聚类分析实习

6聚类分析实习

ID:44401179

大小:1.20 MB

页数:22页

时间:2019-10-21

6聚类分析实习_第1页
6聚类分析实习_第2页
6聚类分析实习_第3页
6聚类分析实习_第4页
6聚类分析实习_第5页
资源描述:

《6聚类分析实习》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、聚类分析实习一、实验目的1)熟悉聚类分析屮Q型和R型的区别,掌握SPSS软件屮实现聚类分析的过程和参数选择。2)结合专业背景知识解释聚类结果。二、实验原理1.聚类分析是研究“物以类聚''的一种科学有效方法,人们在认识世界的过程中,需耍把某些方面相似的东西归成类,以便从中发现规律性,寻找其中共同与不同的特征。聚类分析的主要思想是:根据事物本身的特性研究个体的分类,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。2.聚类分析的实质是建立一种分类方法,它能将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下口动进行分类,这里的类就是

2、一个具有相似性的个体的集合,不同类之间具有明显的区别。3..聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,口动进行分类,因此聚类分析不需要建模。4.在地质研允领域,由于地质对象的复杂性,单靠定性标志或少量定量标志进行分类,常常不能揭示客观事物内在的本质差别和联系。很多分类常具有很大的主观性和任意性,分类常常不能反映客观实际,分类方案又经常因人而异,因此,多元统计分析中对客观事物进行分类的聚类方法已在地质研究屮取得FI益广泛的应用。5.在具体进行聚类分析时,出于不同的冃的和耍求,可能选择不同的统

3、计量和聚类方法,因此可出现不同的聚类结果。三、相似性统计指标聚类分析可以分为R型和Q型,对m个变量进行分类的方法,称为R型聚类法,常用的统计量称为“相关系数”;对n个样品进行分类的方法称为Q型聚类法,常用的统计量称为“距离怎样衡量样品或者变量之间的相似性大小?假定有N个样品,每个样品有P变量来描述,可测的一个数组,以矩阵X表示:比较N个样品间相似性的Q型聚类分析,实际上是矩阵X的N列数据之间相似性对比;同理,p个变量之间的相似性的R型分析,是矩阵X的p行之间的比较。矩阵X中任意两个样品或两个变量之间的相似性,表现在以下三个基本方面:①描述两个样品或

4、变量的两列或两行对应元素接近的程度②两列或两行对应元素成比例的程度③两列或两行对应元素消长关系的密切程度因此,用于表示相似性的统计指标通常有距离系数、相似系数及相关系数三种。(一)距离系数(dik)常用于Q型聚类分析,每个样品视为p维空间中的一点,dik相当于p维空间中两点之间的距离,既两样品点接近的程度。聚类时聚类相近的样本屈于一个类,聚类远的样本屈于不同的类。常用的方法有:欧氏距离(Euclidean):欧氏距离平方(SquaredEuclidean):工(兀-XFChebychev:max

5、xi-yi

6、Block(绝对距离):S

7、xi-yi

8、

9、Minkowski:Customized距离(用户自定义距离):丄(工

10、兀-必广户类Gp与类Gq之间的距离Dpq:(d(xi,xj)表示点xiEGp和xjeGq之间的距离)最短距离法:0>內=mind(A;•,巧)最长距离法:Dw=maxJ(xz,xy)重心法:类平均法:2勺二min〃(耳,兀)—SZ如'®)华GpXjWGq离差平方和法。dik越小,两样品越相似,即X矩阵屮第i列与第k列对应的元素越接近。用距离系数时,如果变量之间相关性大时,相关性越大,dik越不可靠。因此,若变量不独立时,进行Q型聚类前可先进行R型因子分析,把变量变为互不相关的新

11、变量(用因子得分去代替原始变量),再求距离系数一主因子距离系数。(二)相似性系数常用于Q型聚类分析,是把第i、k样品看成p维空间中的两向量,两个样品之间的相似程度可由其向量间夹角的余弦来表示,公式为:COS/式中:i、k=l,2,...,N(iHk)为样品号,j—1,2,…,p为变量号。(三)相关系数多用于R型聚类分析以表示研究对象之间的相关性,其公式为:式中:t、j=l,2,...,p(tHj)为变量号;i=l,2,n为样品号。i•的取值范围是+1与一1之间,

12、r

13、值越大表示两变量之间关系越密;丨M值越小表示关系越不密切注意:在应用上述所有相似性

14、统计指标计算时,由于测定样品的各种特征所用的量纲及各种标志值的变化幅度可能不同。为了避免过分突出那些绝对值较大的变量在分类中的作用,在进行聚类分析之前,需要对原始数据进行处理,应对数据进行标准化或正规化变化。四、聚类方法层次聚类法、K-均值聚类法(快速聚类法)。(-)层次聚类法:基本思想是:先将要归类的n个样品(或者变量)各自看成一类,共有n类;然后按照事先规定好的方法计算分类统计量,即某种距离或某种相似系数,将关系最密切的两类并为一类,其余不变,即得n・l类;又按前面使用的计算新类与其它类的距离或者相似系数,又将关系最密切的两类并成一类,其余不变

15、,即得n・2类;如此进行下去,每次重复都减少一类,直到最后所有样品(或者变量)归为一类为止。显然,越是后来合并的类,距离就

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。