资源描述:
《医学高级统计学_第十章聚类分析.pdf》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第十章聚类分析姜晶梅流行病与统计学系北京协和医学院基础学院2018.6.211本章小结主成分基本原理解析ZaXaXaX11111221ppZaXaXaX22112222ppZAXZiiaXZaXaXaXpppppp1122从几何学上讲:主成分分析的过程就是坐标旋转的过程,在新坐标系中各坐标轴的方向就是原始数据变异最大的方向;从代数变换上讲:主成分分析的过程就是带约束条件的线性变换,将相关变量变换为独立变量;222VarZ()aaiiiiaa1(i1,2,,)pai12aiaip1ii(ip1,2,,
2、)CovZZ(,)0ij2,复习主成分基本原理解析ZaXaXaX11111221ppZaXaXaX22112222ppZaXaXaXpp11p22ppp从协方差矩阵角度来讲:主成分分析就是将原始变量的协方差矩阵对角化的过程;主成分的协方差矩阵CovZ()为aaaaaa11121paaaaaaCovZ()CovAX()ACovXA()21222paaaaaap12ppp由于aaij,(,ij1,2,pi,;j)是相互正交的特征向量,因此,aaij0,0a
3、aijaa00001110aa000CovZ()222diag(,,,)12p00aa003ppp复习主成分基本原理解析ZaXaXaX11111221ppZaXaXaX22112222ppZaXaXaXpppppp1122从信息量变化的角度来讲,主成分分析是对原始变量信息的一种提取,主成分不增加总信息量,也不减少总信息量,只是对原信息进行了重新分配。ppVarZ()iitr(AA)tr(AA)ii11ptr(I)
4、tr()VarX(i)i14ZaXaXaX11111221pp8.2.3主成分的性质Z2aX211aX222aX2ppZaXaXaXpp11p22ppp2.主成分Z与原始变量Xj间的相关系数i5CovZX(,)aaijiijiij(,ZX)(,ij1,2,p,)ijVarZVarX()()ijijjjj6P171,式8.1071.正交因子模型XFFF1111112211mmXFFF2221122222mm()mpXFFFpp
5、pppmmp1122XAF(1)(ppmmp)(1)(1)方统CovX()EX()()X差称结为=AEFFA()()()()EFAAEFE构正交()AAVar因子AAD模型CovXF(,)EXEX()FEF()的=EX()FEAF()F协=AEFF()E(F)8=AXFFF1111112211mmXFFF正交因子模型的统计量2221122222mm()mpXFFFppppp
6、mmp11229XFFF1111112211mmXFFF2221122222mm()mpXFFFpppppmmp112210XFFF1111112211mmXFFF2221122222mm()mpXFFFpppppmmp112211人物以以群类分聚分类学是人类认识世界的基础科学。聚类分析是研究事物分类的基本方法,广泛地应用于自然科学、社会科学、工农业生产的各个领域。12主要内容一、序言二、距离与相似系数三、系统
7、聚类法四、动态聚类法13一、序言:什么是聚类分析人类认识世界往往首先将被认识的对象进行分类,因此,分类学便成了人类认识世界的基础科学。在古老的分类学中,人们主要靠经验和专业知识实现分类。随着生产技术和科学的发展,人类对自然的认识不断深入,分类也越来越细,要求亦越来越高,当数学这个有用的工具逐渐被引进到分类学中,便形成数值的分类学。例如:对我国30个省市自治区独立核算工业企业经济效益的分析;对某些大城市物价指数考核等;在卫生管理学中,希望能根据医院的诊治水平、工作效率等众多指标将医院分成几个类别;比如学生成绩数据就可以对学生按照