资源描述:
《6-聚类分析实习》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、聚类分析实习—、实验目的1)熟悉聚类分析中Q型和R型的区别,掌握SPSS软件中实现聚类分析的过程和参数选择。2)结合专业背景知识解释聚类结果。二、实验原理1.聚类分析是研究“物以类聚”的一种科学有效方法,人们在认识世界的过程中,需要把某些方回相似的东西归成类,以便从中发现规律性,寻找其中共同■不同的特征。聚类分析的主要思想是:根据事物木身的特性研究个体的分类,原则是同一类中的个体有较大的相似也不同类中的个体差异很大。2.聚类分析的实质是建立一种分类方法,它能将一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下口动进行分类
2、,这里的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。3..聚类分析是一种探索性的分析,在分类过程中,人们不必事先给出一个分类的标准,聚类分析能够从样木数据出发,自动进行分类,因此聚类分析不需要建模。4.在地质研究领域,山于地质对象的复杂性,单靠定性标志或少量定量标志进行分类,常常不能揭示客观事物内在的本质差别和联系。很多分类常具有很大的主观性和任意性,分类常常不能反映客观实际,分类方案乂经常因人而异,因此,多元统计分析屮对客观事物进行分类的聚类方法已在地质研究中取得日益广泛的应用。5.在具体进行聚类分析时,出于不同
3、的目的和耍求,可能选择不同的统计量和聚类方法,因此可出现不同的聚类结果。三、相似性统计指标聚类分析可以分为R型和Q型,对m个变量进行分类的方法,称为R型聚类法,常丿IJ的统计量称为“相关系数";对n个样甜进行分类的方法称为Q型聚类法,常川的统计量称为“距离”。怎样衡量样品或者变量之间的和似性大小?假定有N个样品,每个样品有P变量來描述,对测的一个数组,以矩阵X表示:%X2•…vZhVX=龙21•••龙22••••…v人2N••••••XP2•…v儿pN丿比较N个样品间相似性的Q型聚类分析,实际上是矩阵X的N列数据之间相似性对比
4、;同理,p个变量Z间的相似性的R型分析,是矩阵X的p行Z间的比较。矩阵X中任意两个样殆或两个变量之间的相似性,表现在以下三个基本方而:①描述两个样品或变量的两列或两行对应元素接近的程度②两列或两行对应元素成比例的程度③两列或两行对应元素消长关系的密切程度因此,用于表示相似性的统计指标通常有距离系数、相似系数及相关系数三种。(一)距离系数(dik)常用于Q型聚类分析,每个样品视为p维空间中的一点,dik相当于p维空间中两点Z间的距离,既两样品点接近的程度。聚类时聚类相近的样本属于一个类,聚类远的样本属于不同的类。常用的方法有:欧氏距
5、离(Euclidean):欧氏距离平方(SquaredEuclidean):工(兀-升)2Chebychev:maxlxi-yilBlock(绝对距离):工Ixi-yilMinkowski:Customized距离(用户自定义距离):1(工
6、兀-川")“类Gp与类Gq之间的距离Dpq:(d(xi,xj)表示点xiWGp和xj丘Gq之间的距离)最短距离法:D[)(i=mincl(xi,xj)最长距离法:。叫=max^(x,.,x.)重心法:Dpq=mind(xp,xq)1类平均法:Dpq=工工dgxj离差平方和法。dik越小,两样品
7、越相似,即X矩阵屮第i列与第k列对应的元素越接近。用距离系数时,如果变量Z间相关性大时,相关性越大,dik越不可靠。因此,若变量不独立时,进行Q型聚类前对先进行R型因子分析,把变量变为互不相关的新变量(用因子得分去代替原始变量),再求距离系数一主因子距离系数。(二)相似性系数常用于Q型聚类分析,是把第i、k样品看成p维空间中的两向量,两个样品Z间的相似程度可由其向量间夹角的余弦來表示,公式为:P2>.心COS色=戶1pP;=1;=1式中:i、k=l,2,...,N(iHk)为样品号,j=l,2,p为变量号。(三)相关系数多用于R型
8、聚类分析以表示研究对象之间的相关性,其公式为:/=1式中:t、j=l,2,...,p(tHj)为变量号;i=l,2,…,n为样晶号。I•的取值范围是+1与一1Z间,Irl值越大表示两变量Z间关系越密;丨「I值越小表示关系越不密切注意:在应用上述所有相似性统计指标计算时,由于测定样品的各种特征所用的量纲及各种标志值的变化幅度可能不同。为了避免过分突出那些绝对值较大的变量在分类中的作用,在进行聚类分析之前,需要对原始数据进行处理,应对数据进行标准化或正规化变化。四、聚类方法层次聚类法、K■均值聚类法(快速聚类法)。(-)层次聚类法:基
9、木思想是:先将要归类的n个样阳(或者变屋)各自看成一类,共有n类;然厉按照事先规定好的方法计算分类统计量,即某种距离或某种相似系数,将关系最密切的两类并为一类,其余不变,即得ml类;乂按前而使用的计算新类与其它类的距离或者相似系数,又将关系最密切的