第11章聚类分析

第11章聚类分析

ID:44646520

大小:1.06 MB

页数:32页

时间:2019-10-24

第11章聚类分析_第1页
第11章聚类分析_第2页
第11章聚类分析_第3页
第11章聚类分析_第4页
第11章聚类分析_第5页
资源描述:

《第11章聚类分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、第11章聚类分析摘要:聚类分析(clusteranalysis)是物以类聚的一种统计分析方法。川于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况卜•进行分类的场合。§11.1聚类分析概述聚类分析是用于对个体进行分类的方法。根据分析对象的不同可将具分为样品聚类和变量聚类。1.样品聚类俗话说:“物以类聚,人以群分”,对研究对象可根据不同的特征进行分类。这里所说的特征就是反映研究对象特点的各种变量的值。用SAS中的术语來说,样品聚类就是对观测值进行分类。样品聚类是进行判别分析之前的必要工作。根据样品聚类的结果进行判别分析,得出判

2、别函数.进而可对其他研究对象属于何类作出判断。2.变量聚类-般來说,可以反映研究对象特点的变量有许多,而且由于对客观事物的认识冇限,往往难以找出彼此独立月•冇代表性的变量,而影响对问题进一步的认识和研究。例如在回归分析屮,由于自变量间的共线性而导致偏回归系数不能真正反映自变虽对因变虽的影响,等等。因此往往需要先进行变虽聚类,找出相互独立的、冇代表性的自变量,而又不丢失大部分信息。无论哪种聚类分析所得出的结果都是为了某种目的所做的工作,并不是去寻找自然真实的类。聚类方法大致可归纳如下:①系统聚类法:先将n个元索(样品或变量)看成n类,然后将性

3、质最接近(或相似程度最大)的2类合并为一个新类,得到ml类,再从中找出最接近的2类加以合并变成了n・2类,如此下去,最后所有的元素全聚在-•类之中。②分解法:其程序与系统聚类相反,首先所有的元索均在一类,然后用某种最优准则将它分成2类,再用同样准则将这2类各口试图分裂为2类,从中选1个使目标函数较好者,这样由2类变成了3类。如此下去,一直分裂到每类中只冇1个元素为止,有吋即便是同一种聚类方法,因聚类形式(即距离的定义方法)不同而有不同的停止规则。①动态聚类法:开始将n个元索粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,肓至

4、不能调整时为止。②有序样品的聚类:n个样品按某种因素(时间或年龄或地层深度等)排成次序,耍求必须是次序相邻的样品才能聚在一类。其他还有加入法、有重叠的类、模糊聚类等。聚类分析实质上是寻找--种能客观反映元索之间亲疏关系的统计量,然后根据这种统计量把元素分成若干类。常用的描述亲疏关系(程度)有相似系数法和距离系数法。1.相似系数法:即性质越接近的样品它们之间的相似系数越接近1(或・1),而彼此无关的样殆,它们之间的相似系数接近0,在聚类处理时,比较相似的样品归为一类,不怎么相似的归为不同类。常用的相似系数冇相关系数、夹介余弦、指数相似系数,非

5、参数方法等。相似系数一般用于对变量分类。2.距离系数法:它是将样詁看作m维空间(m个变量)的一个点,在m维空间屮,定义距离,距离较近的点归为一类,距离较远的点归为不同的类。距离的定义很多,如极端距离、明考斯基距离、欧氏距离、切比雪夫距离等。距离系数一般用于对样品进行分类。SAS/STAT提供了4个聚类过程:①CLUSTER过程:対样本观测数据或样本间距离阵进行系统聚类,是应用最多的一个聚类过程,系统提供11种聚类方法,当观察值数冃大多时不宜直接采用。②FASTCLUS过程:对样木观测数据,用K-MEANS法进行动态聚类。适用于大样本分析,观

6、察值可多达10万个。©VARCLUS过程:通过斜交多组分量分析对变量进行系统聚类或动态聚类。④TREE过程:利用CLUSTER或VARCLUS过程建立的数据集,将聚类结果画成树状结构图或谱系图,不是一个独立的聚类过程。§11.2系统聚类分析过程CLUSTER一、过程格式PROCCLUSTERMETHOD二聚类算法选择项;VAR变量表;ID变量;COPY变量表;FREQ变量;BY变量表;RMSSTD变量;这7个语句中PROCCLUSTER语句是必须的,VAR语句是常用的。二、语句说明:1.PROCCLUSTER语句语句功能:调用CLUSTER

7、过程,对指定的数据集合(或缺省的数据集)用指定的聚类方法进行聚类分分析。并按其它选择项的耍求计算、列出有关的统计量。语句中“MEIHOD或11=聚类算法”是必须指定的,用來指明聚类的方法。冇下列11种方法可供选择:聚类方法关键字聚类方法M=AVERAGE或AVE类平均法M=CENIROID或CEN重心法M=COMPLETE或COM最长距离法M=DENSITY或DEN密度法M=EML最大似然法M=FLEXIBLE或FLE可变法M=MCQUITTY或MCQMcQuitty法M=MEDIAN或MED中间距离法M=SINGLE或SIN最短距离法M

8、=TWOSTAGE或TWO二级密度法M=WARD或WAN离差平方和法英他常用的选择项有:DATA=数据集指定输入数据集,如果省略,隐含地使川最新建立的数据集。如果输入的数据集是距

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。