统计 聚类分析.ppt

统计 聚类分析.ppt

ID:49411078

大小:272.50 KB

页数:37页

时间:2020-02-06

统计 聚类分析.ppt_第1页
统计 聚类分析.ppt_第2页
统计 聚类分析.ppt_第3页
统计 聚类分析.ppt_第4页
统计 聚类分析.ppt_第5页
资源描述:

《统计 聚类分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第十九章聚类分析 (clusteringanalysis)137判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。聚类分析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。 二者都是研究分类问题的多元统计分析方法。237聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。 例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类:又

2、称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。337无论是R型聚类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similaritycoefficient)的定义。437第一节相似系数1.R型(指标)聚类的相似系数X1,X2,…,Xm表示m个变量,R型聚类常用简单相关系数的绝对值定义变量与间的相似系数:绝对值越大表明两变量间相似程度越高。 同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。5372.Q型(样品)聚类常用

3、相似系数 将n例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。 (1)欧氏距离:欧氏距离(Euclideandistance) (2)绝对距离:绝对距离(Manhattandistance) (3)Minkowski距离: 绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。637(4)马氏距离:用表示m个变量间的样本协方差矩阵,马氏距离(Mahalanobisdistance)的计算公式为

4、 其中向量。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。 以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。737第二节系统聚类系统聚类(hierarchicalclusteringanalysis)是将相似的样品或变量归类的最常用方法,聚类过程如下:1)开始将各个样品(或变量)独自视为一类,即各类只含一个样品(或变量),计算类间相似系数矩阵,其中的元素是样品(或变量)间的相似系数。相似系数矩阵是对称矩阵;2)将相似系数最大(距离最小或相关系数最大)的两类合并成新类,计算新类与其余类间相似系数; 重复第二步,直至全部样品(或变量)被并为一

5、类。837一、类间相似系数的计算 系统聚类的每一步都要计算类间相似系数(即:新形成的类别与其他类之间的类间相似系数的确定),当两类各自仅含一个样品或变量时,两类间的相似系数即是两样品或变量间的相似系数或,按第一节的定义计算。937当类内含有两个或两个以上样品或变量时,计算类间相似系数有多种方法可供选择,下面列出5种计算方法。用分别表示两类,各自含有个样品或变量。(np与nq分别代表Gp与Gq两类的样品或变量数)1.最大相似系数法类中的个样品或变量与类中的个样品或变量两两间共有个相似系数,以其中最大者定义为与的类间相似系数。 注意距离最小即相似系数最大。2.最小相似系数法类间相似系数

6、计算公式为3.重心法(仅用于样品聚类)用分别表示的均值向量(重心),其分量是各个指标类内均数,类间相似系数计算公式为10374.类平均法(仅用于样品聚类)对Gp类中的np个样品与Gq类中的nq个样品两两间的个平方距离求平均,得到两类间的相似系数 类平均法是系统聚类方法中较好的方法之一,它充分反映了类内样品的个体信息。11375.离差平方和法又称Ward法,仅用于样品聚类。此法效仿方差分析的基本思想,即合理的分类使得类内离差平方和较小,而类间离差平方和较大。假定n个样品已分成g类,是其中的两类。此时有个样品的第k类的离差平方和定义为:,其中为类内指标的均数。所有g类的合并离差平方和为。

7、如果将与合并,形成g-1类,它们的合并离差平方和。由于并类引起的合并离差平方和的增量定义为两类间的平方距离。显然,当n个样品各自成一类时,n类的合并离差平方和为0。1237例19-1测量了3454名成年女子身高(X1)、下肢长(X2)、腰围(X3)和胸围(X4),计算得相关矩阵:试用系统聚类法将这4个指标聚类。 本例是R型(指标)聚类,相似系数选用简单相关系数,类间相似系数采用最大相似系数法计算。1337聚类过程如下:(1)各个指标

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。