欢迎来到天天文库
浏览记录
ID:45198063
大小:989.50 KB
页数:51页
时间:2019-11-10
《聚类分析与判别分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、聚类分析主讲人:陈建红通信地址:青海省西宁市宁张路97号经济系联系电话:0971-3978298分类学是人类认识世界的基础科学。聚类分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。分类俗语说,物以类聚、人以群分。但什么是分类的根据呢?比如,要想把中国的县分成若干类,就有很多种分类法;可以按照自然条件来分,比如考虑降水、土地、日照、湿度等各方面;也可以考虑收入、教育水准、医疗条件、基础设施等指标;既可以用某一项来分类,也可以同时考虑多项指标来分类。聚类分析1什么是聚类分析聚类分析起源于分类学,在考古的分类学中,人们主要依靠经
2、验和专业知识事项分类。形成数值分类学。大量的例子:对我国30个省市自治区独立核算工业企业经济效益的分析;对某些大城市物价指数考核等。值得提出的是将聚类分析和其他方法联系起来使用,如判别分析、主成分分析、回归分析等效果更好。聚类分析有系统聚类法、有序样品聚类法、动态聚类法、模糊聚类法、图论聚类法、聚类预报法等。一般用的是系统聚类法。1什么是聚类分析根据事物本身的特性研究个体分类的方法,原则是同一类中的个体有较大的相似性,不同类中的个体差异很大。根据分类对象的不同,分为样品(观测量)聚类和变量聚类两种:样品聚类:对观测量(Case)进行聚类(不同的目的选用不同的
3、指标作为分类的依据,如选拔运动员与分课外活动小组)变量聚类:找出彼此独立且有代表性的自变量,而又不丢失大部分信息。在生产活动中不乏有变量聚类的实例,如:衣服号码(身长、胸围、裤长、腰围)、鞋的号码。变量聚类使批量生产成为可能。1什么是聚类分析比如学生成绩数据就可以对学生按照理科或文科成绩(或者综合考虑各科成绩)分类,当然,并不一定事先假定有多少类,完全可以按照数据本身的规律来分类。本部分主要介绍的分类的方法称为聚类分析(clusteranalysis)。对变量的聚类称为R型聚类,而对观测值聚类称为Q型聚类。这两种聚类在数学上是对称的,没有什么不同。如何度量远
4、近?如果想要对100个学生进行分类,如果仅仅知道他们的数学成绩,则只好按照数学成绩来分类;这些成绩在直线上形成100个点。这样就可以把接近的点放到一类。如果还知道他们的物理成绩,这样数学和物理成绩就形成二维平面上的100个点,也可以按照距离远近来分类。三维或者更高维的情况也是类似;只不过三维以上的图形无法直观地画出来而已。在饮料数据中,每种饮料都有四个变量值。这就是四维空间点的问题了。如何度量远近?判断关系方法一种方法用相似系数另一种方法将一个样本看作是P维空间的一个点,并在空间定义距离,距离越近的点归为一类。变量类型:scale、nominal、0rdin
5、al。两个距离概念按照远近程度来聚类需要明确两个概念:一个是点和点之间的距离,一个是类和类之间的距离。点间距离有很多定义方式。最简单的是歐氏距离,还有其他的距离。当然还有一些和距离相反但起同样作用的概念,比如相似性等,两点越相似度越大,就相当于距离越短。由一个点组成的类是最基本的类;如果每一类都由一个点组成,那么点间的距离就是类间距离。但是如果某一类包含不止一个点,那么就要确定类间距离,类间距离是基于点间距离定义的:比如两类之间最近点之间的距离可以作为这两类之间的距离,也可以用两类中最远点之间的距离作为这两类之间的距离;当然也可以用各类的中心之间的距离来作为
6、类间距离。在计算时,各种点间距离和类间距离的选择是通过统计软件的选项实现的。不同的选择的结果会不同,但一般不会差太多。2距离与相似系数距离:Minkowski距离q=1,绝对距离;q=2,欧氏距离;q=∞,切比雪夫距离。Mahalanobis距离Canberra距离相似系数:夹角余弦和相关系数向量x=(x1,…,xp)与y=(y1,…,yp)之间的距离或相似系数:欧氏距离:Euclidean平方欧氏距离:SquaredEuclidean夹角余弦(相似系数1):cosinePearsoncorrelation(相似系数2):Chebychev:Maxi
7、xi-
8、yi
9、Block(绝对距离):Si
10、xi-yi
11、Minkowski:当变量的测量值相差悬殊时,要先进行标准化.如R为极差,s为标准差,则标准化的数据为每个观测值减去均值后再除以R或s.当观测值大于0时,有人采用Lance和Williams的距离类Gp与类Gq之间的距离Dpq(d(xi,xj)表示点xi∈Gp和xj∈Gq之间的距离)最短距离法:最长距离法:重心法:离差平方和:(Wald)类平均法:(中间距离,可变平均法,可变法等可参考各书).在用欧氏距离时,有统一的递推公式(假设Gr是从Gp和Gq合并而来):Lance和Williams给出(对欧氏距离)统一递
12、推公式:D2(k,r)=apD2(k,p)+aqD2
此文档下载收益归作者所有