SAS软件与统计应用教程 第8章 聚类分析与判别分析

SAS软件与统计应用教程 第8章 聚类分析与判别分析

ID:45858041

大小:473.50 KB

页数:110页

时间:2019-11-18

SAS软件与统计应用教程 第8章  聚类分析与判别分析_第1页
SAS软件与统计应用教程 第8章  聚类分析与判别分析_第2页
SAS软件与统计应用教程 第8章  聚类分析与判别分析_第3页
SAS软件与统计应用教程 第8章  聚类分析与判别分析_第4页
SAS软件与统计应用教程 第8章  聚类分析与判别分析_第5页
资源描述:

《SAS软件与统计应用教程 第8章 聚类分析与判别分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第八章聚类分析与判别分析8.1聚类分析8.2判别分析8.1聚类分析8.1.1聚类分析的一般概念8.1.2系统聚类法的基本思想和步骤8.1.3用CLUSTER过程和TREE过程进行系统聚类8.1.4用VARCLUS过程进行变量聚类8.1.1聚类分析的一般概念设有n个样品(多元观测值),每个样品测得m项指标(变量),得到观测数据xij(i=1,…,n;j=1,…,m),如表所示。X1X2…XmX(1)x11x12…x1mX(2)x21x22…x2m……………X(n)xn1xn2…xnm表8-1中数据又称为观测数据阵或简称为数据阵,其数学表示为:其中列向量Xj=(x1j,x2j,…,xnj

2、)',表示第j项指标(j=1,2,…,m),行向量X(i)=(xi1,xi2,…,xin)表示第i个样品。1.两种聚类分析根据分类对象的不同,聚类分析分为两种:(1)样品聚类:样品聚类是对样品(观测)进行的分类处理,又称为Q型分类,相当于对观测数据阵按行分类。(2)变量聚类:变量聚类是对变量(指标)进行的分类处理,又称为R型分类,相当于对观测数据阵按列分类。两种聚类在形式上是对称的,处理方法也是相似的。2.聚类分析的方法聚类方法大致可归纳如下:(1)系统聚类法(谱系聚类)先将l个元素(样品或变量)看成l类,然后将性质最接近(或相似程度最大)的2类合并为一个新类,得到l–1类,再从中找

3、出最接近的2类加以合并变成了l–2类,如此下去,最后所有的元素全聚在一类之中。(2)分解法(最优分割法)其程序与系统聚类相反。首先所有的元素均在一类,然后按照某种最优准则将它分成2类、3类,如此下去,一直分裂到所需的k类为止。(3)动态聚类法(逐步聚类法)开始将l个元素粗糙地分成若干类,然后用某种最优准则进行调整,一次又一次地调整,直至不能调整为止。(4)有序样品的聚类n个样品按某种因素(时间或年龄或地层深度等)排成次序,要求必须是次序相邻的样品才能聚在一类。其他还有:有重叠聚类、模糊聚类、图论聚类等方法。3.聚类统计量聚类分析实质上是寻找一种能客观反映元素之间亲疏关系的统计量,然后

4、根据这种统计量把元素分成若干类。常用的聚类统计量有距离系数和相似系数两类。距离系数一般用于对样品分类,而相似系数一般用于对变量聚类。距离的定义很多,如马氏距离、明考斯基距离、兰氏距离、切比雪夫距离以及常见的欧氏距离:等。相似系数有相关系数、夹角余弦、列联系数等。当然,采用不同的分类方法会得到不同的分类结果,有时即使是同一种聚类方法,因距离的定义方法不同也会得到不同的分类结果。对任何观测数据都没有唯一“正确的”分类方法。实际应用中,常采用不同的分类方法对数据进行分类,可以提出多种分类意见,由实际工作者决定所需要的分类数和分类情况。8.1.2系统聚类法的基本思想和步骤下面以样品聚类为例介

5、绍系统聚类法。1.系统聚类法的基本思想设有n个样品,每个样品测得m项指标(见表8-1)。系统聚类方法的基本思想是:首先定义样品间的距离(或相似系数)和类与类之间的距离。一开始将n个样品各自自成一类,这时类间的距离与样品间的距离是等价的;然后将距离最近的两类合并,并计算新类与其他类的类间距离,再按最小距离准则并类。这样每次减少一类,直到所有的样品都并成一类为止。这个并类过程可以用谱系聚类图形象地表达出来。2.系统聚类法的基本步骤(1)数据变换为了便于比较或消除量纲的影响,在作聚类之前常常首先要对数据进行变换。变换的方法有中心化变换、标准化变换、极差标准化变换、极差正规化变换、对数变换等

6、。最常用的标准化变换为:其中,,j=1,2,…,m。变换后的数据,每个变量的样本均值为0,标准差为1,而且标准化变换后的数据{}与变量的量纲无关。(2)计算n个样品两两间的距离选择度量样品间距离的定义,计算n个样品两两间的距离,得样品间的距离矩阵D(0)。(3)聚类过程首先n个样品各自构成一类,类的个数k=n:Gi={X(i)}(i=1,…,n),此时类间的距离就是样品间的距离(即D(1)=D(0))。令j=2,…,n,执行如下并类过程:1)合并类间距离最小的两类为一新类(类间距离参见下文“系统聚类分析的方法”)。此时类的总个数k减少1类,即k=n–j+1;2)计算新类与其他类的距离

7、,得新的距离矩阵D(j))。若合并后类的总个数k仍大于1,重复1)和2)步,直到类的总个数为1时止。(4)画谱系聚类图谱系图能明确清晰地描述各个样本点在不同层次上聚合分类的情况。(5)决定分类的个数及各类的成员3.系统聚类分析的方法设有原始数据阵,如表8-1所示。G为在某一聚类水平上的类的个数,Ck是当前(水平G)的第k类,nk为Ck中的样品个数,DKL为第G水平的类CK和类CL之间的距离。根据类间距离计算方法的不同,有11种不同的聚类方法:(1)类平均法

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。