欢迎来到天天文库
浏览记录
ID:41396365
大小:2.96 MB
页数:51页
时间:2019-08-24
《《专题二降维算法》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、专题二降维算法1主成分分析(PrincipalComponentAnalysis,PCA)2线性判别分析(LinearDiscriminantAnalysis,LDA),1内容研究背景基本知识介绍经典方法介绍总结讨论2研究背景问题的提出地理系统是多要素的复杂系统。在地理学研究中,多变量问题是经常会遇到的。变量太多,无疑会增加分析问题的难度与复杂性,而且在许多实际问题中,多个变量之间是具有一定的相关关系的。因此,人们会很自然地想到,能否在相关分析的基础上,用较少的新变量代替原来较多的旧变量,而且使这些较少的新变量尽可能多地保留原来变量所反映的信息?3研究背景降维的动机原始观察空
2、间中的样本具有极大的信息冗余样本的高维数引发分类器设计的“维数灾难”数据可视化、特征提取、分类与聚类等任务需求4特征选择特征约简特征提取依据某一标准选择性质最突出的特征实验数据分析,数据可视化(通常为2维或3维)等也需要维数约简经已有特征的某种变换获取约简特征一般框架5线性降维方法主成分分析(PCA)[Jolliffe,1986]降维目的:寻找能够保持采样数据方差的最佳投影子空间求解方法:对样本的散度矩阵进行特征值分解,所求子空间为经过样本均值,以最大特征值所对应的特征向量为方向的子空间Principalcomponent8线性降维方法主成分分析(PCA)[Jolliffe,
3、1986]PCA对于椭球状分布的样本集有很好的效果,学习所得的主方向就是椭球的主轴方向.PCA是一种非监督的算法,能找到很好地代表所有样本的方向,但这个方向对于分类未必是最有利的9线性降维方法线性判别分析(LDA)[Fukunaga,1991]降维目的:寻找最能把两类样本分开的投影直线,使投影后两类样本的均值之差与投影样本的总类散度的比值最大求解方法:经过推导把原问题转化为关于样本集总类内散度矩阵和总类间散度矩阵的广义特征值问题Bestprojectiondirectionforclassification1011线性降维方法比较主成分分析(PCA)[Jolliffe,198
4、6]线性判别分析(LDA)[Fukunaga,1991]PCALDA11线性降维方法的不足1-DHelix曲线流形原始数据无法表示为特征的简单线性组合比如:PCA无法表达Helix曲线流形12一、主成分分析的基本原理假定有n个地理样本,每个样本共有p个变量,构成一个n×p阶的地理数据矩阵13主成分分析的基本原理当p较大时,在p维空间中考察问题比较麻烦。为了克服这一困难,就需要进行降维处理,即用较少的几个综合指标代替原来较多的变量指标,而且使这些较少的综合指标既能尽量多地反映原来较多变量指标所反映的信息,同时它们之间又是彼此独立的。14定义:记x1,x2,…,xP为原变量指标,
5、z1,z2,…,zm(m≤p)为新变量指标系数lij的确定原则:①zi与zj(i≠j;i,j=1,2,…,m)相互无关;15②z1是x1,x2,…,xP的一切线性组合中方差最大者,z2是与z1不相关的x1,x2,…,xP的所有线性组合中方差最大者;……zm是与z1,z2,……,zm-1都不相关的x1,x2,…xP,的所有线性组合中方差最大者。则新变量指标z1,z2,…,zm分别称为原变量指标x1,x2,…,xP的第一,第二,…,第m主成分。16从以上的分析可以看出,主成分分析的实质就是确定原来变量xj(j=1,2,…,p)在诸主成分zi(i=1,2,…,m)上的荷载lij(i
6、=1,2,…,m;j=1,2,…,p)。从数学上容易知道,从数学上可以证明,它们分别是的相关矩阵的m个较大的特征值所对应的特征向量。1718二、计算步骤(一)计算相关系数矩阵rij(i,j=1,2,…,p)为原变量xi与xj的相关系数,rij=rji,其计算公式为:19(二)计算特征值与特征向量:①解特征方程 ,常用雅可比法(Jacobi)求出特征值,并使其按大小顺序排列;②分别求出对应于特征值 的特征向量,要求 =1,即 ,其中 表示向量的第j个分量。20③计算主成分贡献率及累计贡献率▲贡献率:▲累计贡献率:一般取累计贡献率达85—95%的特征值所对应的第一
7、、第二、…、第m(m≤p)个主成分。21④计算主成分载荷⑤各主成分的得分:22主成分分析方法应用实例下面,我们根据下表给出的数据,对某农业生态经济系统做主成分分析,某农业生态经济系统各区域单元的有关数据2324步骤如下:(1)将表3.4.5中的数据作标准差标准化处理,然后将它们代入公式计算相关系数矩阵表3.5.1 相关系数矩阵25特征值及主成分贡献率26(2)由相关系数矩阵计算特征值,以及各个主成分的贡献率与累计贡献率(见表)。由表可知,第一,第二,第三主成分的累计贡献率已高达86.596%(大于85%
此文档下载收益归作者所有