欢迎来到天天文库
浏览记录
ID:40270360
大小:1.24 MB
页数:27页
时间:2019-07-30
《ch20主成分与因子分析》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、第二十章主成分分析与因子分析第一节主成分分析主成分分析(principalcomponentsanalysis)也称主分量分析,于1901年由Pearson首先引入,1933年由Hotelling作了进一步的发展。主成分分析是从多个数值变量(指标)之间的相互关系入手,利用降维的思想,将多个变量(指标)化为少数几个互不相关的综合变量(指标)的统计方法。本节主要介绍主成分分析的基本理论和方法,并结合实例讨论其在医学研究中的应用。一、主成分分析的基本思想在医学研究中,为了客观、全面地分析问题,常要记录多个观察指标并考虑众多的影响因
2、素,这样的数据虽然可以提供丰富的信息,但同时也使得数据的分析工作更趋复杂化。例如,在儿童生长发育的评价中,收集到的数据包括每一儿童的身高、体重、胸围、头围、坐高、肺活量等十多个指标。怎样利用这类多指标的数据对每一儿童的生长发育水平作出正确的评价?如果仅用其中任一指标来作评价,其结论显然是片面的,而且不能充分利用已有的数据信息。如果分别利用每一指标进行评价,然后再综合各指标评价的结论,这样做一是可能会出现各指标评价的结论不一致,甚至相互冲突,从而给最后的综合评价带来困难;二是工作量明显增大,不利于进一步的统计分析。事实上,在实
3、际工作中,所涉及到的众多指标之间经常是有相互联系和影响的,从这一点出发,通过对原始指标相互关系的研究,找出少数几个综合指标,这些综合指标是原始指标的线性组合,它既保留了原始指标的主要信息,且又互不相关。这样一种从众多原始指标之间相互关系入手,寻找少数综合指标以概括原始指标信息的多元统计方法称为主成分分析。二、主成分分析的数学模型及几何意义(一)主成分的数学模型设有个指标,欲寻找可以概括这450个指标主要信息的综合指标。从数学上讲,就是寻找一组常数(),使这个指标的线性组合:(20-1)能够概括个原始指标的主要信息(其中,各互
4、不相关)。为叙述方便,我们引入如下的矩阵形式:令:,,则公式(20-1)可表为:(20-2)或:(20-3)如果满足:,且,则称是原始指标的第一主成分。一般地,如果满足:(1);(2)则称是原始指标的第主成分。由上述定义可知,当时,主成分与是互不相关的,并且是原始指标的一切线性组合中方差最大者,是与450不相关的、除以外的的一切线性组合中方差最大者,,是与都不相关的、除以外的的一切线性组合中方差最大者。从理论上讲,求得的主成分个数最多可有个,这时,个主成分就反映了全部原始指标所提供的信息。鉴于主成分分析的目的主要是用较少个数
5、的综合指标来反映全部原始指标中的主要信息,因此在实际工作中,所确定的主成分个数总是小于原始指标的个数。(二)主成分的几何意义为讨论方便,我们以为例来讨论主成分分析的几何意义。设个体具有二个观测指标和,它们之间具有较强的相关性。测量例这样的个体的值,将所得的对数据在以为横轴、为纵轴的二维坐标平面中描点,得到如下的散点图(图20-1a)。图20-1主成分分析示意图由图20-1a可以看出,由于与具有较强的相关性,这个点的分布呈现出直线化的趋势;同时,它们沿轴方向和轴方向都具有较大的变异度。我们知道,个体在某个方向上的变异度可用该方
6、向上相应观测变量的方差来定量地表示。显然,如果只考虑、中任何一个方向上的方差,就将损失原始观测数据中很大一部分信息。如果我们将坐标轴、同时按逆时针方向作一个旋转(如图20-1b),得到新的坐标轴、,使得在新的坐标平面上,这个点的分布基本上不再具有相关性,且它们的变异主要集中在方向上,而在方向上则变异较小。这时,若取作为第一主成分,则就反映了原始指标、所包含的主要信息。三、主成分的求法及性质(一)主成分的求法下面我们来考虑主成分的求法。由主成分的定义可知,各主成分互不相关,即任意两个主成分、的协方差450(20-4)且各主成分
7、的方差满足:(20-5)于是由公式(20-2)定义的随机向量的协方差矩阵为:由主成分定义中的条件(1)可知,这里的方阵是正交阵,即(为单位矩阵)。由此可解得(20-6)由公式(20-6)知,求原始指标的主成分问题,实际上就是要求满足上述条件的正交阵,即随机向量的协方差矩阵的特征值(eigenvalue)与特征向量(eigenvector)。下面我们来讨论怎样由一组的样本观测值求出主成分。假设收集到的原始数据共有例,每例测得个指标的数值,记录如下表的形式:表20-1主成分分析的原始数据表样品号观测指标11.对各原始指标数据进行
8、标准化通常先按下式,j=1,2,3,,m450将原始指标标准化,然后用标准化的数据来计算主成分。为方便计,仍用表示标准化后的指标数据,为标准化后的数据矩阵,则2.求出的相关矩阵(标准化后,的相关矩阵即为协方差矩阵):3.求出相关矩阵的特征值和特征值所对应的特征向量由公式(20-6)知,求主
此文档下载收益归作者所有