欢迎来到天天文库
浏览记录
ID:50617956
大小:358.69 KB
页数:30页
时间:2020-03-07
《SAS学习系列35. 聚类分析.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、35.聚类分析(一)概述聚类分析,相当于“物以类聚”,用于对事物的类别面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下对数据进行分类。而判别分析,必须事先知道各种判别的类型和数目,并且要有一批来自各判别类型的样本,才能建立判别函数来对未知属性的样本进行判别和归类。聚类分析是把分类对象按一定规则分成组或类,这些组或类不是事先给定的而是根据数据特征而定的。在同类的对象在某种意义上倾向于彼此相似,而在不同类里的这些对象倾向于不相似。根据这种相似性的不同定义,聚类分析也有不同的方法。聚类分析分为:对样品的聚类,对变量的聚类。样品聚类:其统计指标是类与类之间距离,把每
2、一个样品看成空间中的一个点,用某种原则规定类与类之间的距离,将距离近的点聚合成一类,距离远的点聚合成另一类。变量聚类:其统计指标是相似系数,将比较相似的变量归为一类,而把不怎么相似的变量归为另一类,用它可以把变量的亲疏关系直观地表示出来。(二)原理一、距离和相似系数1.距离设有n组样品,每组样品有p个变量的数据如下:变量样品V1V2…VpX1x11x12…x1pX2x21x22…x2p……………Xnxn1xn2…xnp例如,Xi到Xj的闵科夫斯基距离定义为:q=2时为欧几里得距离;还有马氏距离:dij=(Xi-Xj)TS-1(Xi-Xj)其中,Xi=(xi1,…,
3、xip),S-1为n个样品的p×p的协方差矩阵的逆矩阵。注:马氏距离考虑了观测变量之间的相关性和变异性(不再受各指标量纲的影响)。距离选择的基本原则:(1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧氏距离就有非常明确的空间距离概念。马氏距离有消除量纲影响的作用。(2)要综合考虑对样本观测数据的预处理和将要采用的聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,则通常就可采用欧氏距离。(3)应根据研究对象的特点不同做出具体分折。实际中,聚类分析前不妨试探性地多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最合适的距离测度方
4、法。2.相似系数变量间的相似性,可以从它们的方向趋同性或“相关性”进行考察,从而得到“夹角余弦法”和“相关系数”两种度量方法。(1)夹角余弦Xi=(xi1,…,xip)和Xj作为p维向量,按通常内积中夹角的概念来定义(2)相关系数显然
5、cij
6、≤1,借助于相似系数,可以定义变量之间的距离。例如,采用非相似测度距离为dij=1-
7、cij
8、,或dij2=1-rij2.二、类的特征、类间的距离1.类的定义给定某阈值T,①若dij≤T,对任意i,j∈G;或者②若(∑j∈Gdij)/(k-1)≤T,对任意i∈G;或者③若对任意i∈G,都存在j∈G使得dij≤T;则称G为一个
9、类。条件从强到弱的顺序为:①②③2.类的特征设类G的元素为x1,…,xm,m为G中样品数。描述类的特征有:(1)均值或重心(2)样品协方差阵(3)直径3.类间的距离设Gp和Gq中分别有p和q个样品,它们的重心分别记为和.(1)最短距离它不对类的形状加以限制,保证了对拉长和不规则类的检测,例如(b)(c)(e)(d)形式的类;但它却牺牲了恢复压缩类的性能,另外它也趋向于在分开主要类之前去掉分布的尾部。(2)最长距离严重地倾向于产生直径粗略相等的类,而且可能被异常值严重地扭曲,例如(a).(3)重心法距离即两个重心之间欧氏距离的平方。重心法在处理异常值上比其他谱系方法
10、更稳健,但是在其他方便不如Ward或类平均距离法的效果好。(4)类平均距离Gp和Gq中所有两个样品对之间距离的平均。类平均距离法趋向于合并具有较小偏差的类,而且稍微有点倾向与产生相同方差的类。例如(a).(5)Ward最小方差法或Ward离差平方和距离D表示类的直径,也有若样品间的距离采用欧氏距离,上式可表示为该方法在每次合并类Gp和Gq为Gp+q时,总是选择使得合并后的Dw(p,q)值最小的类Gp和Gq(最小方差法).合并后增加的最小方差Dw(p,q)除以合并后总的离差平方和TSS的比值(即半偏R2)的统计意义是容易解释的。Ward方法趋向于合并具有少量观察的类
11、,并倾向于形成具有大约相同数目观察的类,一般是在多元正态混合型、等球形协方差、等抽样概率假设下合并类。例如(a).Ward方法对异常值也很敏感。(6)密度估计法例如(b).使用一种基于密度估计的新的非相似测度d*来计算样品xi和xj的近邻关系;②然后根据基于d*方法计算的距离,采用最小距离法进行聚类。有三种不同的密度估计法:k最近邻估计法、均匀核估计法、Wong混合法(适用于大数据集而不适用于小数据集)。(7)两阶段密度估计法在密度估计法中,众数类经常在尾部所有点聚类之前就已经被合并掉了。两阶段密度估计法对密度估计法这一缺点进行了修正,以确保众数类被合并之前,所有
12、点能被分配
此文档下载收益归作者所有