欢迎来到天天文库
浏览记录
ID:6825535
大小:870.00 KB
页数:14页
时间:2018-01-27
《多元统计分析聚类分析讲义》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、注意电子文档使用范围EquationChapter1Section1《多元统计分析》MultivariateStatisticalAnalysis主讲:统计学院统计学院应用统计学教研室SchoolofStatistics13第页第二章聚类分析【教学目的】1.让学生了解聚类分析的背景、基本思想;2.掌握聚类分析的基本原理与方法;3.掌握聚类分析的操作步骤和基本过程;4.学会应用聚类分析解决实际问题。【教学重点】1.分类的统计量;2.各种聚类分析方法的阐述。§1概述一、什么是聚类分析1.研究背景在实际问题中,经常要遇到分类的问
2、题。例如,在考古学中,要将某些古生物化石进行科学的分类;在生物学中,要根据各生物体的综合特征进行分类;在经济学中,为了研究不同地区城镇居民的收入及消费情况,往往需要划分为不同的类型去研究;在产品质量管理中,也要根据各产品的某些重要指标而将其分为一等品,二等品等等。总之,科学的分类方法无论在自然科学,还是在社会科学中,都有着极其广泛的应用。俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、
3、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。随着人类社会的发展与科学技术的进步,对分类学的要求也越来越高。有时,只凭经验和专业知识还不能进行科学有效的分类,于是数学这一有力的工具被逐渐引入到分类学中,形成了一门新兴的学科——数值分类学。后来,随着多元分析方法的引进,从数值分析学中逐渐分离出了聚类分析这个分支。对于一个数据,人们既可以按照观测值对变量(或指标)进行分类(相当于对数据中的列分类),也可以按照变量对观测值(事件,样品)来分类(相当于对数据中的行分类)。比如利用学生成绩数据就可以对
4、学生按照理科或文科成绩(或者综合考虑各科成绩)分类。当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本章要介绍的分类的方法称为聚类分析(clusteranalysis)。有人称按照观测值对变量的分类为R型聚类,而称按照变量对观测值的分类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。聚类分析就是一种分类方法,它将一批样品、变量(或指标),按照它们在性质上相似、疏远程度进行科学的分类。而度量相似或疏远程度常有两种指标:距离和相似系数。2.基本思想哲学理念:物以类聚、人以群分聚类分析的基本思想是,从一
5、批样品的多个指标变量中,定义能度量样品间或变量间相似程度(或亲疏关系)的统计量,在此基础上求出各样品(或变量)之间的相似程度度量值,按相似程度的大小,把样品(或变量)逐一分类,关系密切的类聚集到一个小的分类单位,关系疏远的类聚集到一个大的分类单位,直到所有的样品或变量都聚集完毕,把不同的类型一一划分出来,形成一个亲疏关系谱系图,用以更直观地显示分类对象(样品或变量)的差异和联系。一开始将要归类的13第页个变量(或个体)各自看成一类,然后按事先规定好的方法计算各类之间的归类指标(如某种距离或相似系数),根据指标值大小衡量两两
6、之间关系的密切程度,将关系最密切的两类并成一类,其余不变,即得类;又按事先规定的方法重新计算各类之间的归类指标(仍为某种距离或相似系数),又将关系密切的两类并成一类,其余不变,即得类;如此进行下去,每次归类都减少一类,直到最后,个变量(或个体)都归成一类为止。这一归类过程可以用一张聚类图(或称谱系图)形象地表示出来,由谱系图来进行分类。可以看到,这种系统归类过程,显然与计算类与类之间的归类指标是什么有关系,同时也与归类的方法有关系。一、聚类分析方法值得一提的是聚类分析和第三章的判别分析都是研究分类问题,但二者有本质的区别。
7、聚类分析一般上寻求客观分类的方法,事先对总体到底有几种类型无所知晓,而判别分析则是在总体类型划分已知,在各总体分布或来自各总体训练样本的基础上,对当前的新样品用统计的方法判定它们属于哪个总体。聚类分析的历史还很短,由于在其发展过程中首先是着重于实用,因此相对而言理论上还不够完善。无论聚类统计量还是聚类的方法,都还未最终定型。目前,聚类统计量种类繁多,聚类方法也五花八门,但由于聚类分析方法能广泛地应用于解决实际问题,它和回归分析,判别分析一起被称为多元分析的三大实用方法。本章将重点介绍一些常见的分类统计量和目前使用较为广泛的
8、谱系聚类方法。关于其它聚类方法,如模糊聚类法,动态聚类法,有序样品聚类法,分解法,加入法等等,可以参看其它的文献。13第页§2聚类统计量聚类分析所研究的内容包括两个方面,一是对样品进行分类,设n个样品,每个样品均用p个指标的观测向量来表征,要根据间某种相似性度量,将这n个样品进行分类。如某班有n个学生,
此文档下载收益归作者所有