欢迎来到天天文库
浏览记录
ID:31226661
大小:62.56 KB
页数:10页
时间:2019-01-07
《主成分分析方法综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、主成分分析方法综述1弓I言(Introduction)PCA(PrincipalComponentAnalysis),主成分分析,是一种数据分析的技术,主要思想是将高维数据投影到较低维空间,提取多元事物的主要因素,揭示其本质特征。主成分分析的应用范围非常广泛,经常和分类、聚类,以及与其他方法连用进行数据处理。它可以高效地找出数据中的主要部分,将原有的复杂数据降维,去除整个数据中的噪音和冗余。PCA是一种统计分析方法,它将原来众多具有一定相关性的多个指标,重新组合成…组新的互相无关的综合指标[1]。它是…种最小均方意义上的最优变换,目的是去除输入随机向量之间的相关性,突出原始数据中的隐含特
2、性[2]。PCA方法的优势在于数据压缩以及对多维数据进行降维,它操作简单,且没有参数限制,可以方便的应用于各个场合。它经常被用于人脸识别和图像压缩、特征提取等领域,是在高维数据屮寻找模式的一种技术[3]。2主成分分析方法(Principalcomponentanalysis)2.1主成分分析方法的目标由于原始数据的变量基数比较复杂,难以描述其特征,主成分分析提出了一种简单解决问题的思想,从事物的主要方面进行重点分析。该方法认为某个事物的特征集屮在几个主要变量上,只需要将这几个变量分离出来,对这几个变量进行重点分析,用它们的线性组合表示事物的主要特征。因此,主成分分析方法的目标就是寻找x(
3、x4、随机向量。假设均值为零,即:令表示为维单位向量,在其上投影c这个投影被定义为向量和的内积,表示为:・疋=wr・只在上式中,需满足以下约束条件:5、6、vv7、8、=(w,w”=1主成分分析方法就是寻找一个权值向量,它能够使表达式取最大值⑷。2.3特征值求解PCA特征根求解的步骤如下:(1)将原始数据表示为mF的矩阵。n为原始数据的个数,m为变量个数。(2)计算原始数据的均值。(3)用原始数据减去均值,得到矩阵X。(4)对XXT进行特征根分解,求特征向量及其对应的特征值。(5)选取最大的若干个特征值对应的特征向量,即为求得的主成分。PCA方法用线形代数可以描述为:寻找一组正交基组成的矩阵P,定义Y9、=PX,使得CY=MYYT是对角阵。P的行向量,就是数据X的主成分,也就是XXT的特征向量,矩阵CY对角线上第i个元素是数据X在方向Pi的方差[4]。2.4主成分数量的选取主成分是n个原始变量的线性组合,各主成分Z间互不相关。每个主成分对应一个方差,该方差为协方差阵对应的特征值,各主成分特征值之和为1。将主成分按照其对应的方差值从大到小依次排列,则最大的方差对应第一主成分,以此类推。选择主成分的数量取决于保留部分的累积方差在总方差中所占的百分比。由于所有主成分的总方差值是确定的,前面变量的方差较大,则后面的变量方差就较小。只有前几个综合变量才称得上是主成分,后几个综合变量为次成分。一般情10、况下,可根据问题的实际需要,主观地确定一个百分比值,当前X项的方差之和大于此百分比值时,就可以决定保留前x个主成分,而忽略后面的次成分[5]。3主成分分析的特点(CharacteristicofPCA)综上所述,主成分分析方法有很多优点,可将其归纳如下:(1)在数据处理时,舍弃了一部分主成分,只取前几个方差较大的几个主成分来表示原始数据,可减少计算量。(2)主成分之间是互不相关的,消除了原始数据之间的相关影响。在选取评价指标时,消除了指标Z间的相关影响,因此更容易选择指标。而且实践证明指标之间相关程度越高,主成分分析效果越好。(3)在综合评价函数中,主成分的权数为各个主成分的贡献率,反映11、了该主成分包含原始数据的信息量占全部信息量的比重,这样确定地权数比较客观、合理,克服了某些评价方法屮人为确定权数的缺陷。(4)主成分分析的计算方法比较规范,便于在计算机上实现。主成分分析方法的不足主要体现在两个方面:(1)所得到的主成分实际含义模糊,没有原始数据的含义确切、清楚。(2)主成分分析方法只考虑了数据的二阶统计量(自相关),这对于高斯分布是足够的,但对于非高斯分布,由于高级统计量中含有附加的信息,因此PCA对其表示不够充分
4、随机向量。假设均值为零,即:令表示为维单位向量,在其上投影c这个投影被定义为向量和的内积,表示为:・疋=wr・只在上式中,需满足以下约束条件:
5、
6、vv
7、
8、=(w,w”=1主成分分析方法就是寻找一个权值向量,它能够使表达式取最大值⑷。2.3特征值求解PCA特征根求解的步骤如下:(1)将原始数据表示为mF的矩阵。n为原始数据的个数,m为变量个数。(2)计算原始数据的均值。(3)用原始数据减去均值,得到矩阵X。(4)对XXT进行特征根分解,求特征向量及其对应的特征值。(5)选取最大的若干个特征值对应的特征向量,即为求得的主成分。PCA方法用线形代数可以描述为:寻找一组正交基组成的矩阵P,定义Y
9、=PX,使得CY=MYYT是对角阵。P的行向量,就是数据X的主成分,也就是XXT的特征向量,矩阵CY对角线上第i个元素是数据X在方向Pi的方差[4]。2.4主成分数量的选取主成分是n个原始变量的线性组合,各主成分Z间互不相关。每个主成分对应一个方差,该方差为协方差阵对应的特征值,各主成分特征值之和为1。将主成分按照其对应的方差值从大到小依次排列,则最大的方差对应第一主成分,以此类推。选择主成分的数量取决于保留部分的累积方差在总方差中所占的百分比。由于所有主成分的总方差值是确定的,前面变量的方差较大,则后面的变量方差就较小。只有前几个综合变量才称得上是主成分,后几个综合变量为次成分。一般情
10、况下,可根据问题的实际需要,主观地确定一个百分比值,当前X项的方差之和大于此百分比值时,就可以决定保留前x个主成分,而忽略后面的次成分[5]。3主成分分析的特点(CharacteristicofPCA)综上所述,主成分分析方法有很多优点,可将其归纳如下:(1)在数据处理时,舍弃了一部分主成分,只取前几个方差较大的几个主成分来表示原始数据,可减少计算量。(2)主成分之间是互不相关的,消除了原始数据之间的相关影响。在选取评价指标时,消除了指标Z间的相关影响,因此更容易选择指标。而且实践证明指标之间相关程度越高,主成分分析效果越好。(3)在综合评价函数中,主成分的权数为各个主成分的贡献率,反映
11、了该主成分包含原始数据的信息量占全部信息量的比重,这样确定地权数比较客观、合理,克服了某些评价方法屮人为确定权数的缺陷。(4)主成分分析的计算方法比较规范,便于在计算机上实现。主成分分析方法的不足主要体现在两个方面:(1)所得到的主成分实际含义模糊,没有原始数据的含义确切、清楚。(2)主成分分析方法只考虑了数据的二阶统计量(自相关),这对于高斯分布是足够的,但对于非高斯分布,由于高级统计量中含有附加的信息,因此PCA对其表示不够充分
此文档下载收益归作者所有