应用统计课件补充专题

应用统计课件补充专题

ID:36584387

大小:86.50 KB

页数:10页

时间:2019-05-12

应用统计课件补充专题_第1页
应用统计课件补充专题_第2页
应用统计课件补充专题_第3页
应用统计课件补充专题_第4页
应用统计课件补充专题_第5页
资源描述:

《应用统计课件补充专题》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、补充专题2:判别分析和聚类分析一、判别分析和聚类分析判别分析解决这样的问题:事先知道研究对象分为几个类别,而且有一些类别已知的样品,从这些类别已知的样品出发,建立一种判别方法,对类别未知的样品进行分类。聚类分析解决这样的问题:有一些样品需要分类,但是它们可以分为哪几类,各是什么样的类型,事先都不知道,也没有已知类别的样品可以作为参考,为此,只能根据“物以类聚”的原则,把特性比较接近的样品聚集在一起,成为一类。这就是聚类分析。二、聚类分析问题举例:1.动植物的分类采集了一大批动物或植物的标本,事先不知道它们可以分为

2、几类,只是根据从标本测得的各种数据(如动物的各种体形特征,植物的各种外形尺寸),考虑把特征相近的标本聚集在一起,分成几类,这就是一个聚类分析问题。2.上市股票的分类股市中有成百上千只股票,每只股票都有大批数据(如股票价格、成交量、市盈率、公司资本、负债、产值、利润等),根据这些数据把特征相近的股票聚集在一起,分成几类,这也是一个聚类分析问题。3.不同情况气象年份的分类对某地积累了许多年的气象资料,每一年都有一大批数据(如该年各个月份的平均气温、降水量、年最高气温、年最低气温等),要求把气象情况相近的年份聚集在一起

3、,分成几类,这也是一个聚类分析问题。4.教学评估后,依照各项指标得分对高校办学水平的等级进行分类;世界杯结束后,依进球数和失球数对参赛球队的水平进行分类等,都可用聚类分析的方法解决。三、聚类分析的方法方法很多,最常用也比较成熟的一种方法是系统聚类法(HierarchicalClusteringMethod),也称谱系聚类法。1.相似度的测量1)样品间的距离:常见的有绝对值距离、欧氏距离等。设有p个指标X1,X2,…,Xp,进行了n次观测,得到样本观测值为xi=(xi1,xi2,…,xip),i=1,2,…,n.第

4、i个与第j个样品之间的欧氏距离定义为2)类与类之间的距离:常见的有最短距离、最长距离、重心距离等。其中最短距离定义为类Gi与类Gj中两个最近元素之间的距离为这两类之间的最短距离。计算公式为D1(i,j)=min{dij∣i∈Gi,j∈Gj}2.系统聚类法的基本思路和计算流程:1)将n个样品分为n类,每类一个样本。2)选择样品间距离的计算方法,如欧氏距离。3)选择类与类之间距离的计算方法,如最短距离。4)选择距离最小的两类合并为一个新类,原来n类减少为n-1类。5)重复第4)步,直到合并为一大类为止。6)画出分类图

5、,并做出分析。四、系统聚类法实例【例1】有8个样本,每个样本2个指标,数据如表1所示。样品之间的距离用欧氏距离,类与类之间的距离用最短距离,使用系统聚类法对这8个样本进行分类。样本编号12345678指标12244-4-2-3-1指标25343322-3解:系统聚类过程如下。1)将8个样品分为8类。2)计算类与类之间的距离矩阵3)由D0看出,最小元素为1.0,是G3和G4、G6和G7间的距离,将G3和G4合并为新类G9,将合G3和G4并为新类G10.4)重新计算新类之间的距离矩阵5)由D1看出,最小元素为1.4,

6、是G5和G10间的距离,将G5和G10合并为新类G11.6)重新计算新类之间的距离矩阵7)由D2看出,最小元素为2,是G1和G2、G2和G9间的距离,将G1、G2和G9合并为新类G12.8)重新计算新类之间的距离矩阵9)由D3看出,最小元素为4.1,是G11和G12间的距离,将G11和G12合并为新类G13.最后将G8和G13合并为一类.10)画出分类图:(此例只考虑两个指标,故可画出指标1、指标2观察值的散点图,与分类图与相对照)G12G9G9G13G12G11G106758342111)从聚类图可以看出,当样

7、品分为两类时,第一类为样品8,第二类为样品1,2,3,4,5,6,7,;当样品分为三类时,第一类为样品8,第二类为样品5,6,7;第三类为样品1,2,3,4。依次类推,可以分出不同数量类别时,各类所包含的样品。【例2】2002年世界杯足球赛中,前16名的球队在此前的小组赛中的进球数和失球数统计如表2所示。样本点之间的距离用欧氏距离,类与类之间的距离用最短距离,使用系统聚类法对这16个球队进行分类。球队编号球队名称进球数失球数1丹麦522塞内加尔543西班牙944巴拉圭665巴西1136土耳其537韩国418美国5

8、69德国11110爱尔兰5211瑞典4312英格兰2113墨西哥4214意大利4315日本5216比利时65解:散点图分类谱系图:从谱系图可以看出,当样本分为两类时,第一类为,第二类为;当样本分为三类时,第一类为,第二类为;第三类为。依次类推,可以分出不同数量类别时,各类所包含的球队。

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。