资源描述:
《(真正的好东西)偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、偏最小二乘回归是一种新型的多元统计数据分析方法,它与1983年由伍德和阿巴诺等人首次提出。近十年来,它在理论、方法和应用方面都得到了迅速的发展。密西根大学的弗耐尔教授称偏最小二乘回归为第二代回归分析方法。偏最小二乘回归方法在统计应用中的重要性主要的有以下几个方面:(1)偏最小二乘回归是一种多因变量对多自变量的回归建模方法。(2)偏最小二乘回归可以较好地解决许多以往用普通多元回归无法解决的问题。在普通多元线形回归的应用中,我们常受到许多限制。最典型的问题就是自变量之间的多重相关性。如果采用普通的最小二乘方法,这种变量多重相关性就会严重危害参数估计,扩大模型误差,并破坏模型的稳定性。变量多
2、重相关问题十分复杂,长期以来在理论和方法上都未给出满意的答案,这一直困扰着从事实际系统分析的工作人员。在偏最小二乘回归中开辟了一种有效的技术途径,它利用对系统中的数据信息进行分解和筛选的方式,提取对因变量的解释性最强的综合变量,辨识系统中的信息与噪声,从而更好地克服变量多重相关性在系统建模中的不良作用。(3)偏最小二乘回归之所以被称为第二代回归方法,还由于它可以实现多种数据分析方法的综合应用。偏最小二乘回归=多元线性回归分析+典型相关分析+主成分分析由于偏最小二乘回归在建模的同时实现了数据结构的简化,因此,可以在二维平面图上对多维数据的特性进行观察,这使得偏最小二乘回归分析的图形功能十
3、分强大。在一次偏最小二乘回归分析计算后,不但可以得到多因变量对多自变量的回归模型,而且可以在平面图上直接观察两组变量之间的相关关系,以及观察样本点间的相似性结构。这种高维数据多个层面的可视见性,可以使数据系统的分析内容更加丰富,同时又可以对所建立的回归模型给予许多更详细深入的实际解释。一、偏最小二乘回归的建模策略原理方法161.1建模原理设有q个因变量{}和p自变量{}。为了研究因变量和自变量的统计关系,我们观测了n个样本点,由此构成了自变量与因变量的数据表X={}和.Y={}。偏最小二乘回归分别在X与Y中提取出成分和(也就是说,是的线形组合,是的线形组合).在提取这两个成分时,为
4、了回归分析的需要,有下列两个要求:(1)和应尽可能大地携带他们各自数据表中的变异信息;(2)与的相关程度能够达到最大。这两个要求表明,和应尽可能好的代表数据表X和Y,同时自变量的成分对因变量的成分又有最强的解释能力。在第一个成分和被提取后,偏最小二乘回归分别实施X对的回归以及Y对的回归。如果回归方程已经达到满意的精度,则算法终止;否则,将利用X被解释后的残余信息以及Y被解释后的残余信息进行第二轮的成分提取。如此往复,直到能达到一个较满意的精度为止。若最终对X共提取了m个成分,…,,偏最小二乘回归将通过实施对,…,,的回归,然后再表达成关于原变量,…,,的回归方程,k=1,2,…,q。1
5、.2计算方法推导为了数学推导方便起见,首先将数据做标准化处理。X经标准化处理后的数据矩阵记为=(,…,),经标准化处理后的数据矩阵记为=(,…,)。第一步记是的第一个成分,是的第一个轴,它是一个单位向量,既
6、
7、
8、
9、=1。记是的第一个成分,=。是的第一个轴,并且
10、
11、
12、
13、=1。16如果要,能分别很好的代表X与Y中的数据变异信息,根据主成分分析原理,应该有Var()maxVar()max另一方面,由于回归建模的需要,又要求对有很大的解释能力,有典型相关分析的思路,与的相关度应达到最大值,既r(,)max因此,综合起来,在偏最小二乘回归中,我们要求与的协方差达到最大,既Cov(,)=r(,)m
14、ax正规的数学表述应该是求解下列优化问题,既s.t因此,将在
15、
16、
17、
18、=1和
19、
20、
21、
22、=1的约束条件下,去求()的最大值。如果采用拉格朗日算法,记s=-(-1)-(-1)对s分别求关于,,和的偏导并令之为零,有=-=0(1-2)=-=0(1-3)=-(-1)=0(1-4)16=-(-1)=0(1-5)由式(1-2)~(1-5),可以推出记,所以,正是优化问题的目标函数值.把式(1-2)和式(1-3)写成(1-6)(1-7)将式(1-7)代入式(1-6),有(1-8)同理,可得(1-9)可见,是矩阵的特征向量,对应的特征值为.是目标函数值,它要求取最大值,所以,是对应于矩阵最大特征值的单位特
23、征向量.而另一方面,是对应于矩阵最大特征值的单位特征向量.求得轴和后,即可得到成分然后,分别求和对,的三个回归方程(1-10)(1-11)(1-12)式中,回归系数向量是16(1-13)(1-14)(1-15)而,,分别是三个回归方程的残差矩阵.第二步用残差矩阵和取代和,然后,求第二个轴和以及第二个成分,,有==是对应于矩阵最大特征值的特征值,是对应于矩阵最大特征值的特征向量.计算回归系数因此,有回归方程如此计算下去,如果的秩是,则会有(1-1