第11章_聚类分析

第11章_聚类分析

ID:44647180

大小:1.07 MB

页数:30页

时间:2019-10-24

第11章_聚类分析_第1页
第11章_聚类分析_第2页
第11章_聚类分析_第3页
第11章_聚类分析_第4页
第11章_聚类分析_第5页
资源描述:

《第11章_聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第11章聚类分析摘要:聚类分析(clusteranalysis)是物以类聚的一种统计分析方法。用于对事物类别的血貌尚不清楚,茯至在事前连总共有几类都不能确定的情况下进行分类的场合。§11.1聚类分析概述聚类分析是用于对个体进行分类的方法。根据分析对彖的不同可将其分为样品聚类和变量聚类。1.样品聚类俗话说:“物以类聚,人以群分”,对研究对象可根据不同的特征进行分类。这里所说的特征就是反映研究对象特点的各种变量的值。用SAS中的术语来说,样品聚类就是对观测值进行分类。样品聚类是进行判别分析之前的必要工作。根据样品聚类的结果进行判

2、别分析,得出判别函数.进而可对其他研究对象属于何类作出判断。2.变量聚类-般來说,可以反映研究对象特点的变量有许多,而且山于对客观事物的认识有限,往往难以找岀彼此独立且有代表性的变量,而影响对问题进一步的认识和研究。例如在冋归分析中,由于自变量间的共线性而导致偏冋归系数不能真正反映自变量对因变量的影响,等等。因此往往需要先进行变量聚类,找出相互独立的、有代表性的口变量,而又不丢失大部分信息。无论哪种聚类分析所得出的结果都是为了某种目的所做的工作,并不是去寻找自然真实的类。聚类方法大致可归纳如下:①系统聚类法:先将n个元素(样

3、品或变量)看成n类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到n-1类,再从中找出最接近的2类加以合并变成了n-2类,如此下去,最后所有的元素全聚在-•类之中。②分解法:其程序与系统聚类相反,首先所有的元素均在一类,然后用某种最优准则将它分成2类,再用同样准则将这2类各自试图分裂为2类,从中选1个使H标函数较好者,这样由2类变成了3类。如此下去,一直分裂到每类中只有1个元素为止,有时即使是同一种聚类方法,因聚类形式(即距离的定义方法)不同而有不同的停止规则。③动态聚类法:开始将n个元素粗糙地分成若干类,然后

4、用某种最优准则进行调整,一次乂一次地调整,直至不能调整吋为止。④有序样品的聚类:n个样品按某种因素(时间或年龄或地层深度等)排成次序,耍求必须是次序相邻的样品才能聚在一类。其他还有加入法、有重叠的类、模糊聚类等。聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的描述亲疏关系(程度)有相似系数法和距离系数法。1.相似系数法:即性质越接近的样品它们之间的相似系数越接近1(或-1),而彼此无关的样品,它们之间的相似系数接近0,在聚类处理时,比较相似的样殆归为一类,不怎么相似的归为

5、不同类。常用的相似系数有相关系数、夹角余弦、指数相似系数,非参数方法等。相似系数一般用于对变量分类。2.距离系数法:它是将样品看作m维空间(m个变量)的一个点,在m维空间中,定义距离,距离较近的点归为一类,距离较远的点归为不同的类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。距离系数一般用于对样品进行分类。SAS/STAT提供了4个聚类过程:©CLUSTER过程:对样本观测数据或样本间距离阵进行系统聚类,是应用故多的一个聚类过程,系统提供11种聚类方法,当观察值数目大多时不亢直接采用。②FASTCLU

6、S过程:对样本观测数据,用K-MEANS法进行动态聚类。适用于大样本分析,观察值可多达10万个。③VARCLUS过和通过斜交多组分量分析対变量进行系统聚类或动态聚类。④TREE过程:利用CLUSTER或VARCLUS过程建立的数据集,将聚类结果画成树状结构图或谱系图,不毘一个独立的聚类过程。§11.2系统聚类分析过程CLUSTER一、过程格式PROCCLUSTERMETHOD二聚类算法选择项;VAR变量表;ID变量;COPY变量表;FREQ变量;BY变量表;RMSSTD变量;这7个语句中PROCCLUSTER语句是必须的,V

7、AR语句是常用的。二、语句说明:1.PROCCLUSTER语句语句功能:调川CLUSTER过程,对指定的数据集合(或缺省的数据集)川指定的聚类方法进行聚类分分析。并按其它选择项的要求计算、列岀有关的统计量。语句中“MEIHOD或“=聚类算法”是必须指定的,用來指明聚类的方法。有下列11种方法可供选择:聚类方法关键字聚类方法M=AVERAGE或AVE类平均法M=CENIROID或CEN重心法M=COMPLETE或COM最长距离法M=DENSITY或DEN密度法M=EML最大似然法M=FLEXIBLE或FLE可变法M=MCQUI

8、TTY或MCQMcQuitty法M=MEDIAN或MED中间距离法M=SINGLE或SIN最短距离法M=TWOSTAGE或TWO二级密度法M=WARD或WAN离差平方和法其他常用的选择项有:DATA=数据集指定输入数据集,如果省略,隐含地使用最新建立的数据集。如果输入的数据集是距离矩阵,应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。