同济医学院-《医学多元统计》课件-主成份_因子分析

同济医学院-《医学多元统计》课件-主成份_因子分析

ID:42011611

大小:215.00 KB

页数:32页

时间:2019-09-06

同济医学院-《医学多元统计》课件-主成份_因子分析_第1页
同济医学院-《医学多元统计》课件-主成份_因子分析_第2页
同济医学院-《医学多元统计》课件-主成份_因子分析_第3页
同济医学院-《医学多元统计》课件-主成份_因子分析_第4页
同济医学院-《医学多元统计》课件-主成份_因子分析_第5页
资源描述:

《同济医学院-《医学多元统计》课件-主成份_因子分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、主成份分析常常遇到的问题指标过多,对现象(或事物)解释带来困难----需要降维;指标往往存在相关性,使“关系”复杂化,特别是在回归分析中出现共线性----需消除共线性;用多指标从多个维度对医学现象(或事物)进行考核----需综合评价;揭示事物的不同属性与多个维度体征----判别归类。解决诸如此类问题方法:主成份分析与因子分析!何为主成份?主成份分析:对数据和变量结构进行分析处理的一种行之有效的多元统计分析方法,它可在不损失或尽量少损失原有指标信息的情况下,将多个具有相关性的指标转换成少数几个互相独立的综合指标,即主成份.如何去寻找主成

2、份呢?这可从“点集”的角度来讨论:在有P(≥2)个指标的P维空间中,抽取了n个点(即n个观察对象),我们希望弄清这n个点间的关系,显然在高维空间中点的关系不直观,若把这些点“近似地”在较低维(如m维,m≤P)空间中表示出来,无疑对我们的研究有帮助。这也就是主成分分析的基本思想和目的。Y1X1X2如何达到这个目的呢?Y=(Y1,Y2,…,YP)'是由X=(X1,X2,…,XP)'经正交变换得来的,即存在一个正交矩阵U,有:Y=UX正交变换在所有形如上面的线性变换中,选取这样的线性变换,它使Y1具有最大方差,Y2次之,…,依此类推,即方差

3、的大小顺序是V(Y1)≥V(Y2)≥…≥V(YP),且Y1,Y2,…,YP彼此独立(互不相关)。这样得到的Y1,Y2,…,YP分别叫做指标变量X的第一,第二,…,第P主成分(principelcomponent)。有P个原指标变量,相应的就应该有P个主成分,但只有前面的m个主成分具有实际的解释意义,将具体讨论m的确是方法。由于Y是X的线性变换(即线性组合),所以Yi(i=1,2,…,P)都是X的一个综合指标。Lagrange条件极值:V(Yk)=k-----R的第k个特征根-----j对应的特征向量主成分分析的计算步骤(1)计算各

4、变量的相关系数矩阵R=(rij);(2)计算相关矩阵R的特征值,并按由大到小的顺序排列:1≥2≥…≥p;(3)计算贡献率i和累积贡献率m,确定m的值(即主成分的个数);(4)求出前k个特征值1,2,…,m所对应的单位特征向量。主成分的贡献率与主成分的个数1.主成分的贡献率第i个主成分提取的信息占全部P个变量总信息的比,称为该主成分的贡献率,即:i为第i个主成分Yi的贡献率。如果是通过相关矩阵R求主成分,则主成分的贡献率的计算尤为简单:ηi=i/p显然有=1,即全部主成分对X“总方差”的贡献率率为100%。2.累积贡

5、献率把多个主成分的贡献率由大到小累加起来,就得到各主成分的累积贡献率m:m=这就是前m个主成分Y1,Y2,…,Ym对X“总方差”的累积贡献率。m愈大,表明前m个主成分的方差占全部总方差的比率愈大,反映X的总信息就越多。当m接近于1时,表明前m个主成分已基本上综合了原指标X的总信息。3.主成分个数m的确定一般可有如下两种方法来确定主成分的个数(即m取值):①确定某个m使得m>70%。②取m=所有λi中大于或近似于1的个数。(其中λi为相关阵R的特征值)。因子分析factoranalysis1.因子(factor):进行多指标变

6、量(因素)研究时,尽管各指标之间的关系错综复杂,但都可以概括为两个方面。一方面是所有指标(变量)各自都表现出一定的相对独立性;另一方面,它们又表现出一定的相互关联性。对于前者,可以看作为事物“个体特性”的反映;对于后者,则可认为是构成该事物的所有特征的共性反映。共性的背后有一个共同的东西在支配这些指标,使之表现为不同的方式组合,体现出共同的作用。因子分析的概念例如,人的收缩血压和舒张血压这两个指标一方面表现出各自的独立性,各自的测量值不同,意义不同。然而,收缩压与舒张压又总是密切相关的,其根本原因在于收缩压和舒张压二者都是受心脏血管系

7、统支配的。心血管系统既要求收缩压和舒张压对心血管的正常活动分担不同的任务,同时又要求二者密切配合,共同为心血管系统的正常功能服务。反过来,假设我们还不知道收缩压和舒张压是受心血管系统的控制。现在,通过医学研究,测得n个个体的收缩压和舒张压,得到了一系列研究数据。问题在于可否通过对这些数据的统计学分析,找出影响这两个血压的“共性”来,即我们称之为因子的东西。2.因子分析因子分析就是寻找隐含在多变量数据中的、无法直接观察到的公共因子的一种多元统计分析方法。其目的就是要通过对多变量观察数据的分析,找出支配多个指标间相互关系的少数几个(小于原

8、指标个数)共性因子(有时也称公共因子,下同),而且要求这些找出的公共因子彼此互相独立。尽管这些公共因子往往不能直接测定,但若以这些共性因子(新指标变量)代替原来观察测量的变量,却能够使原指标所包含信息总量损失很小。因子分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。