欢迎来到天天文库
浏览记录
ID:10388147
大小:24.00 KB
页数:2页
时间:2018-07-06
《pca——主成分分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、[编辑本段]PCA·1——主成分分析 . 主成分分析(PrincipalComponentAnalysis,PCA)是一种掌握事物主要矛盾的统计分析方法,它可以从多元事物中解析出主要影响因素,揭示事物的本质,简化复杂的问题。计算主成分的目的是将高维数据投影到较低维空间。给定n个变量的m个观察值,形成一个n′m的数据矩阵,n通常比较大。对于一个由多个变量描述的复杂事物,人们难以认识,那么是否可以抓住事物主要方面进行重点分析呢?如果事物的主要方面刚好体现在几个主要变量上,我们只需要将这几个变量分离出来,进行详细分析。但是,在一般情况下,并不能直
2、接找出这样的关键变量。这时我们可以用原有变量的线性组合来表示事物的主要方面,PCA就是这样一种分析方法。 PCA的目标是寻找r(r3、据的维数从RN降到R3。 在进行基因表达数据分析时,一个重要问题是确定每个实验数据是否是独立的,如果每次实验数据之间不是独立的,则会影响基因表达数据分析结果的准确性。对于利用基因芯片所检测到的基因表达数据,如果用PCA方法进行分析,可以将各个基因作为变量,也可以将实验条件作为变量。当将基因作为变量时,通过分析确定一组“主要基因元素”,它们能够很好地说明基因的特征,解释实验现象;当将实验条件作为变量时,通过分析确定一组“主要实验因素”,它们能够很好地刻画实验条件的特征,解释基因的行为。下面着重考虑以实验条件作为变量的PCA分析方法。假设将数据的4、维数从RN降到R3,具体的PCA分析步骤如下: (1)第一步计算矩阵X的样本的协方差矩阵S: (2)第二步计算协方差矩阵S的本征向量e1,e2,…,eN的本征值,i=1,2,…,N。本征值按大到小排序:; (3)第三步投影数据到本征矢张成的空间之中,这些本征矢相应的本征值为。现在数据可以在三维空间中展示为云状的点集。 对于PCA,确定新变量的个数r是一个两难的问题。我们的目标是减小r,如果r小,则数据的维数低,便于分析,同时也降低了噪声,但可能丢失一些有用的信息。究竟如何确定r呢?这需要进一步分析每个主元素对信息的贡献。 令代表第i个5、特征值,定义第i个主元素的贡献率为: (8-45) 前r个主成分的累计贡献率为: (8-46) 贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重,当取前r个主成分来代替原来全部变量时,累计贡献率的大小反应了这种取代的可靠性,累计贡献率越大,可靠性越大;反之,则可靠性越小。一般要求累计贡献率达到70%以上。 经过PCA分析,一个多变量的复杂问题被简化为低维空间的简单问题。可以利用这种简化方法进行作图,形象地表示和分析复杂问题。在分析基因表达数据时,可以针对基因作图,也可以针对实验条件作图。前者称为Q分析,后者称为R分析6、。 表8.1是对酵母6000多个基因在7个时间点表达数据的PCA分析结果,每列数据代表主元素的系数。从表中可以看出,前两个主元素反应了90%以上(76.9%+13.5%)的变化,而前三个主元素反应了95%以上的变化,因此取前两个主元素即可。图8.6是对7个特征值的图示。 图8.7是前三个主元素系数变化图。第1个主元素代表各个基因表达加权平均,除第1个时间点外,其它所有系数都为正值(见图8.7(a))。如果某个基因对应此主元素的值为较大的正数,则基因表达上调,如果此主元素的值为较大的负数,则基因表达下调。第2个主元素表示在时间序贯中基因表达的7、变化,除第1个时间点外,其它系数逐个增大(见图8.7(b))。如果某个基因的表达量随时间不断增加,则此主元素的值为正;如果表达量随时间不断减小,则此主元素的值为负。第3个主元素系数变化曲线为抛物线形(见图8.7(c))。
3、据的维数从RN降到R3。 在进行基因表达数据分析时,一个重要问题是确定每个实验数据是否是独立的,如果每次实验数据之间不是独立的,则会影响基因表达数据分析结果的准确性。对于利用基因芯片所检测到的基因表达数据,如果用PCA方法进行分析,可以将各个基因作为变量,也可以将实验条件作为变量。当将基因作为变量时,通过分析确定一组“主要基因元素”,它们能够很好地说明基因的特征,解释实验现象;当将实验条件作为变量时,通过分析确定一组“主要实验因素”,它们能够很好地刻画实验条件的特征,解释基因的行为。下面着重考虑以实验条件作为变量的PCA分析方法。假设将数据的
4、维数从RN降到R3,具体的PCA分析步骤如下: (1)第一步计算矩阵X的样本的协方差矩阵S: (2)第二步计算协方差矩阵S的本征向量e1,e2,…,eN的本征值,i=1,2,…,N。本征值按大到小排序:; (3)第三步投影数据到本征矢张成的空间之中,这些本征矢相应的本征值为。现在数据可以在三维空间中展示为云状的点集。 对于PCA,确定新变量的个数r是一个两难的问题。我们的目标是减小r,如果r小,则数据的维数低,便于分析,同时也降低了噪声,但可能丢失一些有用的信息。究竟如何确定r呢?这需要进一步分析每个主元素对信息的贡献。 令代表第i个
5、特征值,定义第i个主元素的贡献率为: (8-45) 前r个主成分的累计贡献率为: (8-46) 贡献率表示所定义的主成分在整个数据分析中承担的主要意义占多大的比重,当取前r个主成分来代替原来全部变量时,累计贡献率的大小反应了这种取代的可靠性,累计贡献率越大,可靠性越大;反之,则可靠性越小。一般要求累计贡献率达到70%以上。 经过PCA分析,一个多变量的复杂问题被简化为低维空间的简单问题。可以利用这种简化方法进行作图,形象地表示和分析复杂问题。在分析基因表达数据时,可以针对基因作图,也可以针对实验条件作图。前者称为Q分析,后者称为R分析
6、。 表8.1是对酵母6000多个基因在7个时间点表达数据的PCA分析结果,每列数据代表主元素的系数。从表中可以看出,前两个主元素反应了90%以上(76.9%+13.5%)的变化,而前三个主元素反应了95%以上的变化,因此取前两个主元素即可。图8.6是对7个特征值的图示。 图8.7是前三个主元素系数变化图。第1个主元素代表各个基因表达加权平均,除第1个时间点外,其它所有系数都为正值(见图8.7(a))。如果某个基因对应此主元素的值为较大的正数,则基因表达上调,如果此主元素的值为较大的负数,则基因表达下调。第2个主元素表示在时间序贯中基因表达的
7、变化,除第1个时间点外,其它系数逐个增大(见图8.7(b))。如果某个基因的表达量随时间不断增加,则此主元素的值为正;如果表达量随时间不断减小,则此主元素的值为负。第3个主元素系数变化曲线为抛物线形(见图8.7(c))。
此文档下载收益归作者所有