资源描述:
《《主成分分析与》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、主成分分析与因子分析山西医科大学卫生统计教研室刘桂芬liugf66@yahoo.com.cn多变量大样本分析中,变量间存在共线性,增加了分析的复杂性。若分别分析各个指标,分析有可能是孤立的,而不是综合的;盲目地减少指标又有可能损失很多信息,得出错误结论。欲采用较少指标,反映原资料大部分信息,可采用主成分分析和因子分析。主成分分析概念主成分分析(principalcomponentanalysis)是将分散在一组变量上的信息,集中到某几个综合指标(主成分)上的一种探索性统计分析方法。它利用降维的思想,将多个变量化为少数几个互不相关的主成分,从而描述数据集的内部结构。主成分
2、的几何意义x1x2p1p2x1对应m个变量的q个主成分如下:其中()'分别是变量相关阵的前q个特征根对应的特征向量。的方差分别是q个特征根λ1≥λ2≥…≥λq。()’是第i个变量在各个主成分上的载荷。而实际上载荷往往是指,它是第i个变量在各个标准化主成分上的载荷。据此可用最小二乘法解得标准主成分得分。标准化主成分的方差为1。PCA常用统计量:1.特征根λi2.各成分贡献率3.前各成分累计贡献率4.特征向量各成分表达式中标准化原始变量的系数向量,就是各成分的特征向量。因子分析一、因子分析模型设X=(x1,x2,…,xp)’为可观测的随机变量,且有f=(f1,f2,…,fm)
3、’为公共(共性)因子(commonfactor),简称因子(factor)e=(e1,e2,…,ep)’为特殊因子(specificfactor)f和e均为不可直接观测的随机变量μ=(μ1,μ2,…,μp)’为总体x的均值A=(aij)p*m为因子负荷(载荷)(factorloading)矩阵通常先对x作标准化处理,使其均值为零,方差为1.这样就有假定(1)fi的均数为0,方差为1;(2)ei的均数为0,方差为δi;(3)fi与ei相互独立.则称x为具有m个公共因子的因子模型如果再满足(4)fi与fj相互独立(i≠j),则称该因子模型为正交因子模型。正交因子模型具有如下特
4、性:x的方差可表示为设(1)hi2是m个公共因子对第i个变量的贡献,称为第i个共同度(communality)或共性方差,公因子方差(commonvariance)(2)δi称为特殊方差(specificvariance),是不能由公共因子解释的部分因子载荷(负荷)aij是随机变量xi与公共因子fj的相关系数。设称gj2为公共因子fj对x的“贡献”,是衡量公共因子fj重要性的一个指标。二、因子分析的步骤1.输入原始数据xn*p,计算样本均值和方差,进行标准化计算(处理);2.求样本相关系数矩阵R=(rij)p*p;3.求相关系数矩阵的特征根λi(λ1,λ2,…,λp>0)
5、和相应的标准正交的特征向量li;4.确定公共因子数;5.计算公共因子的共性方差hi2;6.对载荷矩阵进行旋转,以求能更好地解释公共因子;7.对公共因子作出专业性的解释。三、因子分析提取因子的方法主成分法(principalcomponentfactor)每一个公共因子的载荷系数之平方和等于对应的特征根,即该公共因子的方差。极大似然法(maximumlikelihoodfactor)假定原变量服从正态分布,公共因子和特殊因子也服从正态分布,构造因子负荷和特殊方差的似然函数,求其极大,得到唯一解。主因子法(principalfactor)设原变量的相关矩阵为R=(rij),其
6、逆矩阵为R-1=(rij)。各变量特征方差的初始值取为逆相关矩阵对角线元素的倒数,δi’=1/rii。则共同度的初始值为(hi’)。以(hi’)2代替相关矩阵中的对角线上的元素,得到约化相关矩阵R’。R’的前m个特征根及其对应的单位化特征向量就是主因子解。迭代主因子法(iteratedprincipalfactor)主因子的解很不稳定。因此,常以估计的共同度为初始值,构造新的约化矩阵,再计算其特征根及其特征向量,并由此再估计因子负荷及其各变量的共同度和特殊方差,再由此新估计的共同度为初始值继续迭代,直到解稳定为止。因子载荷(负荷)aij是随机变量xi与公共因子fj的相关系
7、数。设称gj2为公共因子fj对x的“贡献”,是衡量公共因子fj重要性的一个指标。四、因子旋转目的:使因子负荷两极分化,要么接近于0,要么接近于1。常用的旋转方法:(1)方差最大正交旋转(varimaxorthogonalrotation)基本思想:使公共因子的相对负荷(lij/hi2)的方差之和最大,且保持原公共因子的正交性和公共方差总和不变。可使每个因子上的具有最大载荷的变量数最小,因此可以简化对因子的解释。(2)斜交旋转(obliquerotation)因子斜交旋转后,各因子负荷发生了较大变化,出现了两极分化。各因子间不再