聚类分析在SAS中的实现

聚类分析在SAS中的实现

ID:42351996

大小:369.06 KB

页数:32页

时间:2019-09-13

聚类分析在SAS中的实现_第1页
聚类分析在SAS中的实现_第2页
聚类分析在SAS中的实现_第3页
聚类分析在SAS中的实现_第4页
聚类分析在SAS中的实现_第5页
资源描述:

《聚类分析在SAS中的实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类分析主要内容一、概述二、聚类分析的主要方法三、聚类分析的统计量四、SAS解决方案概述定义聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样品,要求能合理地按各自的特性来进行合理的分类,没有任何模式可供参考或依循,即是在没有先验知识的情况下进行的。基本思想样本(或变量)间存在着相似性,根据多个观测指标,找出能度量样本之间相似程度的统计量,以其为依据,把相似程度较大的样本聚合为一类,关系密切的聚合到一个小的分类单位,关系疏远的聚合到一个大的分类单位,直到把所有的样本都聚合完毕,把不同的类型一一划分出来,形成一

2、个由小到大的分类系统。聚类原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。基本程序是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。具体进行聚类时,由于目的、要求不同,因而产生各种不同的聚类方法:由小类合并到大类的方法由大类分解为小类的方法静态聚类法、动态聚类法按样本聚类(Q)、按指标聚类(R)举例对上市公司的经营业绩进行分类;据经济信息和市场行情,客观地对不同商品、不同用户及时地进行分类。又例如当我们对企业的经济效益进行评价时,建立了一个由多个指标组成的指标体系,由于信息的重叠

3、,一些指标之间存在很强的相关性,所以需要将相似的指标聚为一类,从而达到简化指标体系的目的。按照聚类分析分组依据的原则不同分组按照聚类分析的对象不同分组聚类分析主要方法系统聚类分析法动态聚类分析法模糊聚类法图论聚类法聚类预报法Q型聚类分析法R型聚类分析法系统聚类分析法在样品距离的基础上定义类与类的距离,首先将各个样品自成一类,然后每次将具有最小距离的两个类合并,合并后再重新计算类与类之间的距离,再并类,这个过程一直持续到所有的样品都归为一类为止。这种聚类方法称为系统聚类法。根据并类过程所做的样品聚类过程图称为聚类谱系图。动态聚类分析法将个样品初步分类,然后根据分

4、类函数尽可能小的原则,对初步分类进行调整优化,直到分类合理为止。这种分类方法一般称为动态聚类法,也称为调优法。模糊聚类分析法利用模糊数学中模糊集理论来处理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。图论聚类法利用图论中最小支撑树(MST)的概念来处理分类问题,是一种独具风格的方法。聚类预报法利用聚类方法处理预报问题,主要是处理一些异常数据,如气象中的灾害性天气的预报,这些异常数据采用回归分析或判别分析处理的效果不好,而聚类预报可以弥补回归分析及判别分析方法之不足,是一个很值得重视的方法。Q型聚类分析法对样本进行分类,是具有共同特

5、点的样本聚在一起,以便对不同类的样本进行分析。作用①综合利用多个变量对样品进行分类;②分类结果直观,聚类谱系图清晰;③聚类结果细致、全面、合理。R型聚类分析法对变量进行的分类处理。作用①了解变量之间,以及变量组合之间的亲疏程度;②根据变量分类的结果,可以选择最佳的变量组合进行回归分析或者Q型聚类分析。选择最佳变量,即在聚合的每类变量中选出一个具有代表性的变量作为典型变量。Q型聚类的统计量对样品进行分类时,通常采用距离来表示样品之间的亲疏程度。常用的距离有:(1)明氏距离(明科夫斯基Minkowski)(2)兰氏距离(Lance和Williams)(3)马氏距离

6、(Mahalanobis)(4)斜交空间距离聚类分析的统计量R型聚类的统计量对变量进行聚分类析时,通常采用相似系数来表示变量之间的亲疏程度。常用的相似系数有:(1)夹角余弦(2)相关系数(3)指数相似系数(4)非参数方法SAS解决方案CLUSTER过程FASTCLUS过程ACECLUS过程VARCLUS过程TREE语句格式CLUSTER语句格式数据若为原始数值形式,CLUSTER过程以欧式距离为默认的距离计算方法。PROCCLUSTERMETHOD=name;BYvariables;COPYvariable;IDvariable;RMSSTD

7、variable;VARvariables;RUN;例题1在CLUSTER语句的“METHOD=”关键字下,可以指定11种系统聚类方法。AVERAGE:类平均法CENTROID:重心法COMPLETE:最长距离法DENSITY:密度估计法EML:最大似然谱系聚类FLEXIBLE:可变类平均法MCQUITTY:可变法及McQuitty相似分析法MEDIAN:中间距离法SINGLE:最短距离法TWOSTAGE:两阶段密度估计法WARD:离差平方和法FASTCLUS语句格式研研究事先知道类别的个数,但不知道这些类别当中的具体样本,这时采用快速聚类方法。默认情况下,f

8、astclus过程以欧式距离作为分类的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。