欢迎来到天天文库
浏览记录
ID:58622153
大小:254.00 KB
页数:13页
时间:2020-10-17
《偏最小二乘法算法.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、偏最小二乘法1.1基本原理偏最小二乘法(PLS)是基于因子分析的多变量校正方法,其数学基础为主成分分析。但它相对于主成分回归(PCR)更进了一步,两者的区别在于PLS法将浓度矩阵Y和相应的量测响应矩阵X同时进行主成分分解:X=TP+EY=UQ+F式中T和U分别为X和Y的得分矩阵,而P和Q分别为X和Y的载荷矩阵,E和F分别为运用偏最小二乘法去拟合矩阵X和Y时所引进的误差。偏最小二乘法和主成分回归很相似,其差别在于用于描述变量Y中因子的同时也用于描述变量X。为了实现这一点,数学中是以矩阵Y的列去计算矩阵X的因子。同时,矩阵Y的因子则由矩阵X的列去预测。分解得到的T和U矩阵
2、分别是除去了大部分测量误差的响应和浓度的信息。偏最小二乘法就是利用各列向量相互正交的特征响应矩阵T和特征浓度矩阵U进行回归:U=TB得到回归系数矩阵,又称关联矩阵B:B=(TTT-1)TTU因此,偏最小二乘法的校正步骤包括对矩阵Y和矩阵X的主成分分解以及对关联矩阵B的计算。1.2主成分分析主成分分析的中心目的是将数据降维,以排除众多化学信息共存中相互重叠的信息。他是将原变量进行转换,即把原变量的线性组合成几个新变量。同时这些新变量要尽可能多的表征原变量的数据结构特征而不丢失信息。新变量是一组正交的,即互不相关的变量。这种新变量又称为主成分。如何寻找主成分,在数学上讲,
3、求数据矩阵的主成分就是求解该矩阵的特征值和特征矢量问题。下面以多组分混合物的量测光谱来加以说明。假设有n个样本包含p个组分,在m个波长下测定其光谱数据,根据比尔定律和加和定理有:An×m=Cn×pBp×m如果混合物只有一种组分,则该光谱矢量与纯光谱矢量应该是方向一致,而大小不同。换句话说,光谱A表示在由p个波长构成的p维变量空间的一组点(n个),而这一组点一定在一条通过坐标原点的直线上。这条直线其实就是纯光谱b。因此由m个波长描述的原始数据可以用一条直线,即一个新坐标或新变量来表示。如果一个混合物由2个组分组成,各组分的纯光谱用b1,b2表示,则有:有上式看出,不管混
4、合物如何变化,其光谱总可以用两个新坐标轴b1,b2来表示。因此可以推出,如果混合物由p个组分组成,那么混合物的光谱就可由p个主成分轴的线性组合表示。因而现在的问题就变成了如何求解这些主成分轴。而寻找这些坐标轴的基本原则是使新坐标轴包含原数据的最大方差。即沿着新坐标轴的方向,使方差达到最大。而其他方向,使方差达到最小。从几何角度看,就是变量空间中所有的点到这个新坐标轴的距离最短。以二维空间的为例说明如何寻找主成分坐标轴。变量空间的每一个数据点(一个样本)都可以用通过该点与坐标原点的一个矢量xi表征。上图中直角三角形的三个边长分别以a,b,c表示,那么这n个点到第一个主成
5、分轴v1距离的平方和可以通过勾股定理与矢量点积得出:因为与,所以min上式等价于max(最大特征值λ)上式中v1表示第一个主成分轴矢量,即第一个特征矢量,所对应的最大值称为特征值,用λ1表示。从上面推导看出,寻找主成分轴就是求X矩阵的协方差矩阵XTX中的最大特征值(λi)和特征向量(vi)。下面考虑变量数为m的一般情况。在m为空间中新变量可以表示为:其中系数矩阵V为V=用u和x分别表示新变量和原始矢量,则,上述m维主成分系数必须满足下面两个条件(1)正交条件:任意两个主成分uk、ur,其系数的乘积之和为0。(2)归一化条件:对于任一主成分系数的平方和等于1。满足这两个
6、条件的矩阵,称之为正交矩阵。正交矩阵具有如下性质:1.3矩阵的主成分分解根据特征向量和特征值的定义(*)同时令X的协方差矩阵为(*)式两边同时左乘vi,有主成分系数矩阵V也可写为因此可得其中表示一个对角矩阵,即对角线元素为,非对角线元素为0的矩阵。上式两边同时左乘VT,得令,则上式变为将式右乘得上式是矩阵X的主成分分解的一种表达式,由上式得求解T和V的方法依据矩阵乘法规则即可获得矩阵V和T中每一个矢量的计算公式:根据上面两个公式可以设计主成分分解的迭代法算法如下:(1)取X中任意一列作为起始的t。(2)由此t计算:(3)将vT归一化:(4)计算新的t:(5)比较步骤4
7、所得的t和上一步的t。若二者相等(在给定的误差范围内),则按()计算特征值,转第六步继续进行;否则返回第二步继续迭代。(6)从Y中减去的贡献:。返回1,继续运行,直到最后Y趋近于零。从理论上讲,在m空间中,可以获得m个主成分。但是在实际应用中一般只取前几个对方差贡献最大的主成分,这样就使高维空间的数据降到低维,如二维或三维空间,非常有益于数据的观察,同时损失的信息量还不会太大。取前p个主成分的依据为比率(%)一般推荐,比率(%)≥80%1.4偏最小二乘法算法(1)矩阵X和Y的标准化处理(2)取Y中任意一列赋给作为起始的u对于X矩阵(3)wT=uTX/
此文档下载收益归作者所有