主成分分析及r语言案例

主成分分析及r语言案例

ID:5379425

大小:436.82 KB

页数:11页

时间:2017-12-08

主成分分析及r语言案例_第1页
主成分分析及r语言案例_第2页
主成分分析及r语言案例_第3页
主成分分析及r语言案例_第4页
主成分分析及r语言案例_第5页
资源描述:

《主成分分析及r语言案例》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、上海大学2013~2014学年春季学期研究生课程考试课程名称:统计中的矩阵应用课程编号:01SAQ9005论文题目:主成分分析及R语言案例研究生姓名:李腾龙学号:13720067研究生班级:理学院统计系论文评语:成绩:任课教师:评阅日期:主成分分析及R语言案例摘要:本文目的在于,在基于主成分分析方法的基础上,给出实际操作中主成分分析方法的具体步骤,并同时叙述了作者对主成分分析的一些想法和心得。更重要的是,通过本次论文的学习,更加深入地学习了统计中的矩阵应用的相关知识点,并通过一个案例分析,使自己能够初步了解并掌握R语言统计分析软件的使用方法。关键词:主成分分

2、析、R语言、特征值、特征向量一、引言在用统计分析方法研究多变量的课题时,变量个数太多就会增加课题的复杂性。人们自然希望变量个数较少而得到的信息较多。在很多情形,变量之间是有一定的相关关系的,当两个变量之间有一定相关关系时,可以解释为这两个变量反映此课题的信息有一定的重叠。主成分分析是对于原先提出的所有变量,建立尽可能少的新变量,使得这些新变量是两两不相关的,而且这些新变量在反映课题的信息方面尽可能保持原有的信息。主成分分析(PrincipalComponentAnalysis,PCA),就是将多个变量通过线性变换以选出较少个数重要变量的一种多元统计分析方法。

3、又称主分量分析。主成分分析所关心的问题,是通过一组变量的几个线性组合来解释这组变量的方差-协方差结构,它的一般目的是:(1)数据的压缩;(2)数据的解释。虽然要求p个成分可以再现全系统的变异性,但大部分变异性常常只用少数k个主成分就可以说明。出现这种情况时,这k个主成分中所包含的信息和那p个原变量所包含的(几乎)一样多。于是这k个主成分就可以用来取代那初试的p个变量,并且由对p个变量的n次测量值所组成的原始数据,就压缩为对k个主成分的n次测量值所组成的数据集。二、主成分分析基本原理2.1主成分的定义概念:主成分分析是把原来多个变量划为少数几个综合指标的一种统

4、计分析方法。从数学角度来看,这是一种降维处理技术。思路:一个研究对象,往往是多要素的复杂系统。变量太多无疑会增加分析问题的难度和复杂性,利用原变量之间的相关关系,用较少的新变量代替原来较多的变量,并使这些少数变量尽可能多的保留原来较多的变量所反应的信息,这样问题就简单化了。原理:假定有n个样本,每个样本共有p个变量,构成一个n×p阶的数据矩阵,x11x12x1pxxxX21222pxn1xn2xnp记原变量指标为x,x,,x,设它们降维处理后的综合指标,即新变量为12pY,Y,,Y(mp),则12mY1a1

5、1x1a12x2a1pxpY2a21x1a22x2a2pxp............Yaxaxaxmm11m22mpp主成分是那些不相关的线性组合,Y,Y,,Y(mp),使他们的方差尽可12m能的大。因此我们定义:第一主成分=线性组合aX,在aa1时,它使Var(aX)最大;1111第二主成分=线性组合ax,在aa1和Cov(aX,aX)0时,它使22212Var(aX)最大;2第i个主成分=线性组合aX,在aa1和Cov(aX,aX)0(ki)时,它iiiik使Var(aX)

6、最大;i2.2基本结论结论8.1:设是随机向量X[X,X,X]的协方差矩阵,他有特征值—12p特征向量(1,e1),(2,e2),,(p,ep),其中12p,则第i个主成分由YeXeXeXeX,i1,2,piii11i22ippVar(Y)eei1,2,,piiii给出,此时:Cov(Y,Y)ee0ikikik如果有某些相等,那么对应的系数向量e的选取从而的选取,就都不是唯一iii的了。结论8.2:随机变量XXXX具有协方差矩阵,其特征值-12p特征向量为(,e),(,

7、e),,(,e),其中0,设第i个主成1122pp12p分为YeX,i1,2,piipp则总体总方差1122ppVar(Xi)12pVar(Yi)i1i1总方差中属于第k从而有:k1,2,,pk个主成分的比例12p如果总方差的相当大的部分归因于第一个、前两个或前三个主成分,而p较大,那么这些成分就可以“取代”原来的p个变量,而且信息损失不多。结论8.3:如果YeX,i1,2,p是从协方差矩阵所得到的主成分,iieiki则ρ,i,k1,2

8、,,p是Y和X之间的相关系数。Yi,Xkikkk

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。