聚类分析 -发给研究生学习用.doc

聚类分析 -发给研究生学习用.doc

ID:48158635

大小:2.27 MB

页数:71页

时间:2020-01-21

聚类分析  -发给研究生学习用.doc_第1页
聚类分析  -发给研究生学习用.doc_第2页
聚类分析  -发给研究生学习用.doc_第3页
聚类分析  -发给研究生学习用.doc_第4页
聚类分析  -发给研究生学习用.doc_第5页
资源描述:

《聚类分析 -发给研究生学习用.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、聚类分析基本原理及其案例一、相似度的测量聚类分析是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为Q型聚类和R型聚类。Q型聚类是对样品进行分类处理,R型聚类是对变量进行分类处理。1.1样品相似性的度量在聚类分析之前,首先要分析样品间的相似性。Q型聚类分析,常用距离来测度样品之间的相似程度。每个样品有p个指标(变量)从不同方面描述其性质,形成一个p维的向量。如果把这n个样品看成p维空间中的n个点,则两个样品间的相似程度就可用p维空间中的亮点距离公式来度量。两点距离公式可以从不同角度进行定义,令表示样品与的距离,存在以下的距离公式。1.1.

2、1闵科夫斯基距离闵科夫斯基距离又称闵氏距离,按q值的不同又可分成1)绝对距离()2)欧几里得距离()3)切比雪夫距离()欧几里得距离较为常用,但在解决多元数据的分析问题时,他就显得不足。一是他没有考虑到总体变异对“距离”远近的影响,显然一个变异程度大的总体可能与更多样品近些,即使他们的欧几里得距离不一定最近;另外,欧几里得距离收到变量的量纲影响,这对多元数据的处理时不利的。为了克服这方面的不足,可用“马氏距离“的概念。1.1.2马氏距离设与是来自均值向量为,协方差为(>0)的总体G中的p维样品,则两个样品间的马氏距离为马氏距离又称为广义欧几里得距离

3、。显然,马氏距离与上述各种距离的主要不同时它考虑了观测变量之间的关联性。如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为加权数的加权欧几里得距离。马氏距离还考虑了观测变量之间的变异性,不再受各指标量纲的影响。将原始数据做线性变换后,马氏距离不变。1.1.3兰氏距离它仅适用于一切的情况,这个距离也可以克服各个指标之间量纲的影响。这是一个自身标准化的的量,由于它对奇异值不敏感,它特别适合用于高度偏倚的数据。虽然这个距离有助于克服闵氏距离的第一个缺点,但它也没有考虑指标之间的关联性。1.1.4距

4、离选择的原则一般来说,同一批数据采用不同的距离公式,会得到不同的分类结果。产生不同结果的原因,主要是由于不同的距离公式的侧重点和实际意义都有不同。因此,我们在进行聚类分析时,应该注意距离公式的选择。通常选择距离公式应注意遵守以下的基本原则:1)要考虑所选择的距离公式在实际应用中有明确的意义。如欧几里得距离就有非常明确的空间距离概念,马氏距离有消除量纲影响的作用。2)要综合考虑对样本观测数据的预处理和将要采用聚类分析方法。如在进行聚类分析之前已经对变量作了标准化处理,通常就可采用欧几里得距离。3)要考虑研究对象的特点及计算量的大小。样品间距离公式的选

5、择是一个比较复杂且带有一定主观性的问题,我们应根据研究对象的特点不同作出具体分析。实际中,聚类分析前不妨试探性的多选择几个距离公式分别进行聚类,然后对聚类分析的结果进行对比分析,以确定最适合的距离测度方法。1.2变量相似性的度量多元数据中的变量表现形式为向量形式,在几何上可用多维空间中的一个有向线段表示。在对多元数据进行分析时,相对于数据的大小,我们更多地对变量的变化趋势或者方向感兴趣。因此,变量间的相似性,我们可以从他们的方向趋同性或“相关性”进行考察,从而得到“夹角余弦法”和“相关系数”两种度量方法。1.2.1夹角余弦两变量与看作p维空间的两个

6、向量,这两个向量间的夹角余弦可用下式进行计算显然,。1.2.2相关系数相关系数经常用来度量变量间的相似性。变量与的相关系数定义为显然也有,。无论是夹角余弦还是相关系数,他们的绝对值都小于1,作为变量近似性的度量工具,我们把他们统计为。当时,说明变量与完全相似;当趋近于1时,说明变量与非常密切;当时,说明变量与完全不一样;当趋近于0时,说明变量与差别很大。据此,我们把比较相似的变量聚为一类,把不太相似的变量归到不同的类内。在实际聚类过程中,为了计算方便,我们把变量间相似性的度量公式作一个变换为或者用表示变量间的距离远近,小则与先聚成一类,这比较符合人

7、们的一般思维习惯。二、系统聚类分析法2.1系统聚类的基本思想系统聚类的基本思想是:距离相近的样品(或变量)先聚成类,距离相远的后聚成类,过程一直进行下去,每个样品(或变量)总能聚到合适的类中。系统聚类过程是:假设总共有n个样品(或变量),第一步将每个样品(或变量)独自聚成一类,共有n类;第二步根据所确定的样品(或变量)“距离”公式,把距离较近的两个样品(或变量)聚合成一类,其他的样品(或变量)仍各自聚为一类,共聚成n-1类;第三步将“距离”最近的两个类进一步聚成一类,共聚成n-2类;……以上步骤一直进行下去,最后将所有的样品(或变量)聚成一类。为了

8、直观地反映以上的系统聚类过程,可以把整个分类系统地画成一张谱系图。所以有时系统聚类也称为谱系分析。2.2类间距离与系统聚类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。