环境主成份分析

环境主成份分析

ID:37533656

大小:4.13 MB

页数:48页

时间:2019-05-12

环境主成份分析_第1页
环境主成份分析_第2页
环境主成份分析_第3页
环境主成份分析_第4页
环境主成份分析_第5页
资源描述:

《环境主成份分析》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第10章环境主成分分析简介PrincipalComponentAnalysis(PCA)1、什么是主成分分析?我们来看一个例子:小学各科成绩的评估可以用下面的综合成绩来体现:a1×语文+a2×数学+a3×自然+a4×社会科学确定权重系数的过程就可以看作是主成分分析的过程,得到的加权成绩总和就相对于新的综合变量——主成分什么是主成分分析?推而广之,当某一问题需要同时考虑好几个因素时,我们并不对这些因素个别处理而是将它们综合起来处理,这就是PCA。这样综合处理的原则是使新的综合变量能够解释大部分原始数据方差。什么是主

2、成分分析?由于各种量测到数据通常是以矩阵的形式记录、表达和存储的,实际中的很多数据信息往往是重叠与冗余的。从线性代数的观点来看,就是这些数据矩阵中存在相关的行或列。因此需要对其进行处理和提炼,抽取出有意义、独立的变量。主成分分析(PrincipalComponentAnalysis,简称PCA)是一种常用的基于变量协方差矩阵对信息进行处理、压缩和抽提的有效方法。2、主成分分析原理根据方差最大化原理,用一组新的、线性无关且相互正交的向量来表征原来数据矩阵的行(或列)。这组新向量(主成分)是原始数据向量的线性组合。具

3、体来讲就是:通过对原始数据的平移、尺度伸缩(减均值除方差)和坐标旋转(特征分解),得到新的坐标系(特征向量)后,用原始数据在新坐标系下的投影(点积)来替代原始变量。为什么要根据方差确定主成分?情形II下总分的方差为0,显然不能反映三个学生各科成绩各有所长的实际情形,而红色标记的变量对应的方差最大,可反映原始数据的大部分信息。对主成分的要求上例可见,用总分有时可以反映原分数表的情况,保留原有信息,有时则把信息丢尽,不能反映原始的情况和差异。根据总分所对应的方差可以确定其代表了多大比例的原始数据(分数)信息。一般来说

4、,人们希望能用一个或少数几个综合指标(分数)来代替原来分数表做统计分析,而且希望新的综合指标能够尽可能地保留原有信息,并具有最大的方差。主成分分析的目的压缩变量个数,用较少的变量去解释原始数据中的大部分变量,剔除冗余信息。即将许多相关性很高的变量转化成个数较少、能解释大部分原始数据方差且彼此互相独立的几个新变量,也就是所谓的主成分。这样就可以消除原始变量间存在的多重共线性,克服由此造成的运算不稳定、矩阵病态等问题。所谓多重共线性(Multicollinearity)是指线性回归模型中的解释变量之间由于存在精确相关

5、关系或高度相关关系而使模型估计失真或难以估计准确。一般来说,完全共线性的情况并不多见,一般出现的是在一定程度上的共线性,即近似共线性。主成分的特点☆主成分是原变量的线性组合;☆各个主成分之间互不相关;☆主成分按照方差从大到小依次排列,第一主成分对应最大的方差(特征值);☆每个主成分的均值为0、其方差为协方差阵对应的特征值;☆不同的主成分轴(载荷轴)之间相互正交。主成分的特点☆如果原来有p个变量,则最多可以选取p个主成分,这p个主成分的变化可以完全反映原来全部p个变量的变化;☆如果选取的主成分少于p个,则这些主成分

6、的变化应尽可能多地反映原来全部p个变量的变化。PCA的优点★它能找到表现原始数据阵最重要的变量的组合★通过表示最大的方差,能有效地直观反映样本之间的关系★能从最大的几个主成分的得分来近似反映原始的数据阵的信息主成分得分 (潜变量-latentvariable)PC(1)=a11X1+a12X2+…+a1pXpPC(2)=a21X1+a22X2+…+a2pXp...PC(m)=am1X1+am2X2+…+ampXp选择加权系数a11…,a1p时要能使PC(1)得到最大解释方差的能力,而PC(2)则是能对原始数据中尚

7、未被PC(1)解释的差异部分拥有有最大解释能力,若以此类推,我们可以找出m个PC出來(m≦p)主成分轴、载荷向量原始数据前的加权系数决定了新的综合变量主成分(得分)的大小和性质,通常称为主成分轴或者载荷向量(载荷轴、载荷系数)。主成分分析的关键就是确定这些系数,这些系数构成了新的坐标系,将原始变量在新的坐标系下投影就可求得新坐标系下的变量值(主成分得分)。三变量主成分分析示意图PC1=a1xi1+a2xi2+a3xi3PC2=b1xi1+b2xi2+b3xi3对三维空间下的一组样本(设样本数为n),其原始变量的坐

8、标系为x1,x2,x3,在对原始坐标系经过坐标平移、尺度伸缩、旋转等变换后,得到一组新的、相互正交的坐标轴v1,v2,可使原始变量在新坐标系上的投影值(分别称为第一、第二主成分)的方差达到最大。其中v1,v2称为第一、第二载荷轴。对于m维空间,载荷轴的个数最多为m。主成分变换将三维空间的样本显示在二维空间3、主成分的求解步骤i)对原始数据矩阵进行标准化处理相当于对原始变量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。