主成分分析中的信息损失及其效率估计

主成分分析中的信息损失及其效率估计

ID:38118135

大小:154.52 KB

页数:3页

时间:2019-05-25

主成分分析中的信息损失及其效率估计_第1页
主成分分析中的信息损失及其效率估计_第2页
主成分分析中的信息损失及其效率估计_第3页
资源描述:

《主成分分析中的信息损失及其效率估计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第18卷第3期统计与信息论坛Vol.18No.32003年5月May,2003【研究生论坛】主成分分析中的信息损失及其效率估计王璐,包革军,王雪峰(哈尔滨工业大学数学系,黑龙江哈尔滨150001)摘要:首先阐明了主成分分析中信息损失的不可避免性,接着提出了对主成分进行效率统计的概念,并构造了效率统计量,最后模拟了该统计量的分布,得到了一般性的结论。关键词:主成分分析;信息损失;效率统计中图分类号:O212.4文献标识码:A文章编号:1007-3116(2003)03-0055-03射。目前主成分分析已得到了广泛

2、的认同,普遍的一、主成分中信息损失的不可避免性应用于社会经济各个领域,形成了一套比较成熟的[2]主成分分析是常用的多元统计数据分析方法之方法步骤。但是采用主成分方法,也经常会出现一,它就是设法将原来众多具有一定相关性的指标结果同实际相差较远的情况,这说明用主成分分析重新组合成一组新的互相无关的综合指标,同时根得到的结果并不能完全反映出原始变量(指标)的信据实际需要从中选取较少的几个综合指标尽可能多息,在处理过程中有大量信息的丢失,导致事实的扭[1]的反映原有指标的信息。从空间的角度看,就是曲。针对这种情况,本文

3、首先分析了在主成分一般建立由p个指标组成的高维空间到低维空间的映步骤下,可能会出现的信息损失。表1主成分方法中的信息损失基本步骤可能出现的问题[3][4]1指标的选择指标代表性和全面性的矛盾由于几何的相似变换而改变了原有的数据结构,改变了变量的变异信息,丢失了部分2原始指标数据的标准化[5][6][7]信息[8][9]求相关系数矩阵及其特征根、对存在非线性关系的数据(包括成分数据)进行线性处理,损失了部分信息3特征向量[7][10][11]相关矩阵特征向量的方向问题根据累积贡献率确定主成分的[8][12]4降维

4、,用较少的新变量替代较多的原变量,损失部分原始信息个数信息权在合成主成分和综合评价值的两次赋权造成对样本差异的二次放大,并且指5合成主成分得到综合评价值[13][14]标间存在重要性的差异从表1可以看到:在进行主成分分析时,每一步分分析的核心仍是降维的思想,那么在从高维到低都可能存在或多或少的信息损失,这样得到的结果维的映射中必然伴随着信息的损失。所以,在主成就直接影响了对事实结论的评判。虽然对这些可能分分析中信息损失是不可避免的,只是信息损失量出现的问题已经有了许多行之有效的处理办法,但大小的差别而已。仍不能

5、从根本上解决信息损失问题。这是因为主成收稿日期:2002-09-29作者简介:王璐(1979-),男,四川乐山人,硕士生。研究方向:经济数学。55统计与信息论坛kk-1二、主成分分析的效率估计Q0=0,若i=0∑Qi≥50%,i=0∑Qi<50%,则前k个主成分称为核心主成分。实际中,对于一些原始变量较少、数据结构比较核心主成分表明这些选出的前k个主成分包含简单的问题采用主成分分析可能不是一种最好的方[11]了大部分的原始信息,则在主成分中起核心作用。法。因为这些数据在用主成分处理时降维效果一般的,核心主成分越

6、大,说明原始信息越集中在前不显著,不能体现出主成分的优点,所以效率是比较几个核心主成分得以体现而不是分散于各主成分低的。上,则降维效果越好、效率越高。由此引出一个问题:如何衡量一组数据是否适k合利用主成分分析法?即数据处理结果是否有较好∑Qki=0令η=表示核心主成分占有信息量的大的降维效果,是否能较完整的反映出原始变量的信Q息等等。我们将这些都统称为主成分的效率估计。小,显然η越大,效率越高。也就是说,效率估计是用来估计一组数据采用主成当只取一个主成分时,Q1=Q,此时η=1,说明分分析处理效果程度的。估计值

7、越大,说明该组数绝大部分原始信息集中在第一主成分上,降维效果据降维效果越好、丢失信息越少、越适合采用主成分最好。分析;反之,亦反。综合上面可知,Q、γ、η同效率统计量β成正比下面构造效率统计量β。关系,但它们对β的影响大小不同。一般认为,Q首先,累积贡献率Q表示选出的主成分反映全对β的影响作用最大,故称它为主要因子;γ、η的影部变量指标信息的大小。Q越大,说明选出的主成响次之,称它们为调节因子。分包含原始变量的信息越多,则效率越高;若Q越按照上面的关系β,有多种构造方法。但经实小,说明信息在主成分的降维过程中损

8、失的越多,则践,我们选择构造统计量如下:3效率越低。所以累积贡献率Q和效率统计量是成11β=γ+ηQ正比的。22以后可以按此公式估计原始变量(指标)主成分但是,单从累积贡献率是无法区分出效率大小分析的效率了。例如,参考文献[1]中163页的例的。因为可以增加主成分的个数来提高累积贡献题,p=8,m=3,γ=0.7143,Q=0.8956,η=率,但是降维的效果就大大降低了。可见,统计效

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。