欢迎来到天天文库
浏览记录
ID:43241947
大小:1.94 MB
页数:73页
时间:2019-10-07
《统计学11聚类分析和判别分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第11章聚类分析与判别分析聚类分析判别分析中央财经大学统计学院聚类分析引言相似性度量系统聚类K-均值聚类聚类分析的SPSS实现中央财经大学统计学院引言物以类聚,人以群分。例:中国的民族分成若干类,上市公司分类,等等对于一个数据集,人们既可以对变量(指标)进行分类(称为R型聚类),也可以对观测值(个案,样品)来分类(称为Q型聚类)。这两种聚类在数学上是对称的,没有什么不同。3中央财经大学统计学院例:哪些少数民族的生存状况更接近?民族原始数据标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59朝鲜族7.4467.14蒙古族8
2、.1165.48维吾尔族10.2158.88藏族9.5159.24哈萨克族9.8160.47*标化死亡率是根据相同的人口年龄结构(标准组)计算的,因而更具可比性。4中央财经大学统计学院聚类分析需要解决的一个问题如何衡量样本点之间的距离或相似程度?距离,主要用于样品(观测)间相似性度量相似系数,主要用于变量间相似性度量5中央财经大学统计学院常用的距离的计算方法设每个样品有p个指标(变量)。把n个样品看成p维空间中的n个点,则两个样品间相似程度就可用p维空间中的两点距离公式来度量。两点距离公式可以从不同角度进行定义。当变量的测量值
3、相差悬殊时,要先进行标准化,以消除计量单位对计算结果的影响。6中央财经大学统计学院常用的距离的计算方法欧氏距离(Euclidean)平方欧氏距离SquaredEuclidean切比雪夫距离(Chebychev)7中央财经大学统计学院明考夫斯基距离(明氏距离)**按q的取值不同可以包括多种距离计算方法。例如:8中央财经大学统计学院相似系数的计算方法变量间的相似性可以从它们的方向趋同性或“相关性”进行考察,“夹角余弦法”和“相关系数”两种主要度量方法,统称为相似系数。(1)夹角余弦*两变量Xi与Xj看作p维空间的两个向量,这两个向
4、量间的夹角余弦可用下式进行计算显然,∣cosij∣1。9中央财经大学统计学院相似系数的计算方法(2)Pearson相关系数Pearson相关系数经常用来度量变量间的相似性。变量Xi与Xj的Pearson相关系数定义为显然也有,∣rij∣1。10中央财经大学统计学院系统聚类法(分层聚类)hierarchicalcluster开始时,有多少样本点就是多少类。第一步先把最近的两类(点)合并成一类;然后再把剩下的最近的两类合并成一类;这样下去,每次都少一类,直到最后只有一大类为止。显然,越是后来合并的类,距离就越远。11中央财经
5、大学统计学院需要解决的新问题:如何计算类与类之间的距离?最短距离法最长距离法重心法Ward法(离差平方和法)等等12中央财经大学统计学院最短距离S1S3S2S4S5最短距离13中央财经大学统计学院最长距离S1S3S4S514中央财经大学统计学院••重心法(Centroidclustering):均值点的距离15中央财经大学统计学院离差平方和法:合并离差平方和变动最小的两个类1,24,57,916中央财经大学统计学院红绿(1,2,7,9)44.75离差平方和增加44.75-2.5=42.25黄绿(4,5,7,9)14.75离差平
6、方和增加14.75-2.5=12.25黄红(1,2,4,5)10离差平方和增加10-1=9故按该方法黄红首先连接。离差平方和法:合并离差平方和变动最小的两个类17中央财经大学统计学院6个不同民族的聚类:数据表民族原始数据标准化数据标化死亡率(‰)出生时期望寿命(岁)标化死亡率(‰)出生时期望寿命(岁)满族5.8070.59-1.591.44朝鲜族7.4467.14-0.620.73蒙古族8.1165.48-0.220.38维吾尔族10.2158.881.03-0.99藏族9.5159.240.61-0.91哈萨克族9.8160
7、.470.79-0.6618中央财经大学统计学院各民族之间的欧氏距离满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.5702.3741.8510藏族G5={S5}3.2242.0481.5390.4220哈萨克族G6={S6}3.1731.9731.4480.4060.311019中央财经大学统计学院最短距离法举例(1)首先合并G5、G6
8、,再计算新类与其他类之间的距离。满族朝鲜族蒙古族维吾尔族藏族哈萨克族G1={S1}G2={S2}G3={S3}G4={S4}G5={S5}G6={S6}满族G1={S1}0朝鲜族G2={S2}1.2080蒙古族G3={S3}1.7320.5260维吾尔族G4={S4}3.57
此文档下载收益归作者所有