资源描述:
《多元线性回归模型变量选择的总偏回归平方和法论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、多元线性回归模型变量选择的总偏回归平方和法论文李进文陈朝辉孙燕曾平【摘要】提出一个新概念总偏回归平方和(Pt,totalpartialregressionsumofsquares),将Pt定义为全部自变量Xi(i=1,2,…,m,m为自变量数目或个数)的偏回归平方和Pi之总和。根据Pi占Pt的比例Ri(Pi/Pt),进行m+1个回归方程计算后,可选择出“较优”自变量组合,从而得到一至数个“较优”多元线性回归模型,以供进一步分析。【关键词】偏回归平方和;总偏回归平方和;多元线性回归;变量选择1问题的提出多元线性回归在诸多学科中有广泛应用。在多元线性回归的实
2、际应用中,考虑的自变量Xi(i=1,2,…,m,m为自变量数目或个数)经常包括所有可能影响因变量Y的因素。在众多的Xi中,有的对Y有显著影响.freel-1个)选出。问题是,根据不同的方法和准则,选出的“最优”回归模型不一定相同,真正哪个回归模型“最优”,同样面临选择的困难。而且,从所有可能回归子集中选择“最优”回归方程,计算量较大或极大(视m值而定)。二是逐步选择法(包括前进法、后退法和逐步回归法)。每一种逐步选择法选出的“最优”回归方程不一定相同。同一种方法,给定的检验水准α(0.10,0.05,0.01,0.001)不同,选出的“最优”回归方程亦不
3、同。而且,在确定哪些变量应当添加或者剔除时,采用的统计规则(显著性水平或者方差统计值的大小)都有一定的武断性[5]。笔者认为,从统计学意义上说,真正的最优回归方程是不存在或不可能得到的。与其花费大量的时间和高计算成本而得不到“最优”回归方程,不如少些武断性,用少量的时间和低计算成本得到1至数个“较优”多元线性回归模型以供选择,在实践中发挥相似的效果和作用。基于上述考虑,本研究从偏回归平方和的概念出发,提出一个概念总偏回归平方和(Pttotalpartialregressionsumofsquares),Pt这个概念或术语,作者尚未见文献报道。借助Pt,我
4、们提出简便实用的选择“较优”多元线性回归模型的总偏回归平方和法。2原理与方法设1个应变量Y与m个自变量Xi(i=1,.freel,m为自变量个数)呈线性相关。从多元回归全模型中取消一个自变量Xi后,回归平方和U减少的部分,称为这个自变量Xi对Y的偏回归平方和(Pi),即这个自变量Xi对Y的回归贡献。关于每个自变量Xi在多元回归中所起的作用大小,可通过相应Xi的偏回归平方和Pi来衡量。Pi表明对Y的回归贡献。Pi越大,表示相应的Xi在回归中对Y的作用越大;当Pi很小时,表示相应的Xi在回归中所起的作用越小。总偏回归平方和(Pt)表示全部Pi之和,如能计算出
5、每个Pi与Pt之比Ri(Pi/Pt,Ri∈[0,1]),根据Ri大小不同,可较快选择出“较优”自变量组合或子集。方法如下:①估计全模型即包括所有自变量Xi回归方程的残差平方和Q:Q=Y’*Y-Y’*X*(X’*X)-1*X’*X②计算每个自变量Xi的偏回归平方和Pi[2]:Pi=Qi-Q(i=1,2,…,m)(1)式(1)中Qi表示自变量Xi不在回归模型时的残差平方和,即Y与m-1个自变量X1,…,Xi-1,Xi+1…,Xm的选模型的残差平方和。Q为包括所有自变量Xi回归方程即全模型的残差平方和。至此所计算回归方程总数为m+1个。③计算总偏回归平方和Pt
6、:Pt=ΣPi(i=1,2,…,m)(2)④计算各Pi占Pt的比例:Ri=Pi/Pt(Ri∈[0,1])(3)根据各Ri大小选择自变量,选出“较优”回归方程。⑤将Ri按由大到小秩序排列,然后计算累积Ri。一般地,可选择使累积Ri≥095(或085,090,099,需按数据的实际情况而定)的自变量组合,作为“较优”回归模型的自变量组合,从而得到所求“较优”回归方程。3实例实例1Hald水泥问题是一多元回归的经典实例,在诸多文献[4,6]中均有研究,说明存在一些不确定的模型。用本法作变量选择,结果见表1。表1各自变量的偏回归平方和、总偏回归平方和及其
7、比例与累积比例(略)由表1可知,X1和X2的累积Ri为0.9878,而X4与X3对回归的贡献是微不足道的,两者的Ri均不到001,故“较优”自变量子集应为X∈{X1,X2},这个结果与Cp统计量法选出的结果相同。如需选3个自变量进入回归方程,自变量子集应是X∈{X1,X2,X4},而不是X∈{X1,X2,X3},与用最小残差方差、最小残差标准差、R2及校正R2选出的结果相一致。但本法仅计算了m+1=5个回归方程子集便得到与用2m-1=15个回归方程子集相一致的结论,表明本法计算量明显减小。本法的结果亦与逐步选择法(包括前进法、后退法和逐步回归法)的结果
8、相同。实例2为了研究正常少年儿童心像面积Y与性别(X1),年龄(X2),身高(X