统计19章聚类分析

统计19章聚类分析

ID:42208443

大小:2.90 MB

页数:39页

时间:2019-09-10

统计19章聚类分析_第1页
统计19章聚类分析_第2页
统计19章聚类分析_第3页
统计19章聚类分析_第4页
统计19章聚类分析_第5页
资源描述:

《统计19章聚类分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第十九章聚类分析 (clusteringanalysis)授课老师:曾小敏公共卫生学院卫生统计学教研室例19-3调查了27名沥青工和焦炉工的年龄、工龄、吸烟情况,检测了血清P21、P53、外周血淋巴细胞SCE、染色体畸变数和染色体畸变细胞数。数据列于表19-3,其中P21倍数=P21检测值/对照组P21均数。试用系统聚类法将27名工人归类。表19-3沥青工和焦炉工的生物标志物检测及聚类分析结果工人编号(样品号)年龄工龄吸烟支/d血清P21P21倍数P53SCE染色体畸变数染色体畸变细胞数聚类结果146255

2、21381.680.358.11441235122035102.761.436.84331352252027842.190.544.1133143272024511.930.4711.4596153822032472.560.8011.68551651313037102.920.3711.6022174091031942.510.4011.40551834172046583.670.4611.3533195029050193.950.4713.4510811042202074825.890.1213.1100

3、21157301538002.990.1910.762211236152024781.950.2510.00001133712038273.010.8210.50441145232029842.350.1611.153311552321037492.950.7211.45111011642273049413.890.7313.807611744272039483.110.3313.6516141184021533602.640.3711.40001193821529362.310.6911.401112044

4、272068515.390.9912.28762214327039263.090.4711.95001222610343813.450.5211.807512337182071425.620.8511.81552242892026122.060.3711.65111252593026382.080.7812.251112634142043223.400.4115.005512750322028622.250.698.80221判别分析:在已知分为若干个类的前提下,获得判别模型,并用来判定观察对象的归属。聚类分

5、析:将随机现象归类的统计学方法,在不知道应分多少类合适的情况下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基因信息的首选工具。 二者都是研究分类问题的多元统计分析方法。聚类分析属于探索性统计分析方法,按照分类目的可分为两大类。 例如测量了n个病例(样品)的m个变量(指标),可进行:(1)R型聚类:又称指标聚类,是指将m个指标归类的方法,其目的是将指标降维从而选择有代表性的指标。(2)Q型聚类:又称样品聚类,是指将n个样品归类的方法,其目的是找出样品间的共性。无论是R型聚

6、类或是Q型聚类的关键是如何定义相似性,即如何把相似性数量化。聚类的第一步需要给出两个指标或两个样品间相似性的度量——相似系数(similaritycoefficient)的定义。第一节相似系数1.R型(指标)聚类的相似系数X1,X2,…,Xm表示m个变量,R型聚类常用简单相关系数的绝对值定义变量与间的相似系数:绝对值越大表明两变量间相似程度越高。 同样也可考虑用Spearman秩相关系数定义非正态变量与间的相似系数。当变量均为定性变量时,最好用列联系数定义类间的相似系数。2.Q型(样品)聚类常用相似系数 将n

7、例(样品)看成是m维空间的n个点,用两点间的距离定义相似系数,距离越小表明两样品间相似程度越高。 (1)欧氏距离:欧氏距离(Euclideandistance) (2)绝对距离:绝对距离(Manhattandistance) (3)Minkowski距离: 绝对距离是q=1时的Minkowski距离;欧氏距离是q=2时的Minkowski距离。Minkowski距离的优点是定义直观,计算简单;缺点是没有考虑到变量间的相关关系。基于此引进马氏距离。(4)马氏距离:用表示m个变量间的样本协方差矩阵,马

8、氏距离(Mahalanobisdistance)的计算公式为 其中向量。不难看出,当(单位矩阵)时,马氏距离就是欧氏距离的平方。 以上定义的4种距离适用于定量变量,对于定性变量和有序变量必须在数量化后方能应用。第二节系统聚类系统聚类(hierarchicalclusteringanalysis)是将相似的样品或变量归类的最常用方法,聚类过程如下:1)开始将各个样品(或变量)独自视为一类,即各类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。