自变量的选择与逐步回归

自变量的选择与逐步回归

ID:27549534

大小:493.00 KB

页数:60页

时间:2018-12-04

自变量的选择与逐步回归_第1页
自变量的选择与逐步回归_第2页
自变量的选择与逐步回归_第3页
自变量的选择与逐步回归_第4页
自变量的选择与逐步回归_第5页
资源描述:

《自变量的选择与逐步回归》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第5章自变量的选择与逐步回归5.1自变量选择对估计和预测的影响5.2所有子集回归5.3逐步回归5.4本章小结与评注§第5章自变量选择与逐步回归从20世纪60年代开始,关于回归自变量的选择成为统计学中研究的热点问题。统计学家们提出了许多回归选元的准则,并提出了许多行之有效的选元方法。本章从回归选元对回归参数估计和预测的影响开始,介绍自变量选择常用的几个准则;扼要介绍所有子集回归选元的几个方法;详细讨论逐步回归方法及其应用。§5.1自变量选择对估计和预测的影响一、全模型和选模型设研究某一实际问题涉及到对因变量有影响的因素共有m个,回归模型为:y=β0+β1x

2、1+β2x2+…+βmxm+ε(5.1)称为全回归模型。如果我们从所有可供选择的m个变量中挑选出p个,记为x1,x2,…,xp,构成的回归模型为:y=β0p+β1px1+β2px2+…+βppxp+εp(5.2)称模型(5.2)式为选模型。§5.1自变量选择对估计和预测的影响一、全模型和选模型模型选择不当会给参数估计和预测带来什么影响?下面我们将分别给予讨论。为了方便,我们把模型(5.1)式的参数估计向量和σ2的估计记为:把模型(5.2)式的参数估计向量记为§5.1自变量选择对估计和预测的影响二、自变量选择对预测的影响关于自变量选择对预测的影响可以

3、分成两种情况:第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而误用了全模型式。§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况§5.1自变量选择对估计和预测的影响(一)全模型正确而误用选模型的情况§5.1自变量选择对估计和预测的影响(二)选模型正确而误用全模型的情况§5.1自变量选择对估计和预测的影响(二)选模型正

4、确而误用全模型的情况§5.1自变量选择对估计和预测的影响(二)选模型正确而误用全模型的情况上述结论告诉我们,一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本指导思想是“少而精”。哪怕我们丢掉了一些对因变量y还有些影响的自变量,由选模型估计的保留变量的回归系数的方差,要比由全模型所估计的相应变量的回归系数的方差小。而且,对于所预测的因变量的方差来说也是如此。丢掉了一些对因变量y有影响的自变量后,所付出的代价是估计量产生了有偏性。然而,尽管估计量是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那

5、么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。§5.2所有子集回归一、所有子集的数目有m个可供选择的变量x1,x2,…,xm,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有2m-1个。从另一个角度看§5.2所有子集回归二、关于自变量选择的几个准则从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的。还曾用复相关系数R来衡量回归拟合的好坏。然而这两种方法都有明显的不足,这是因为:§5.2所有子集回归准则1自由度调整复相关系数达到最大§5.2所有子集回归准则1自由度调整复相关系数

6、达到最大从另外一个角度考虑回归的拟合效果,回归误差项方差σ2的无偏估计为:此无偏估计式中也加入了惩罚因子n-p-1§5.2所有子集回归准则1自由度调整复相关系数达到最大§5.2所有子集回归准则2赤池信息量AIC达到最小AIC准则是日本统计学家赤池(Akaike)1974年根据极大似然估计原理提出的一种较为一般的模型选择准则,人们称它为Akaike信息量准则(AkaikeInformationCriterion,简记为AIC)。AIC准则既可用来作回归方程自变量的选择,又可用于时间序列分析中自回归模型的定阶上。由于该方法的广泛应用,使得赤池乃至日本统计学家在

7、世界的声誉大增。§5.2所有子集回归准则2赤池信息量AIC达到最小设回归模型的似然函数为L(θ,x),θ的维数为p,x为样本,在回归分析中样本为y=(y1,y2,…yn)′,则AIC定义为:§5.2所有子集回归准则2赤池信息量AIC达到最小假定回归模型的随机误差项ε遵从正态分布,即ε~N(0,σ2)对数似然函数为§5.2所有子集回归准则2赤池信息量AIC达到最小带入公式中这里似然函数中的未知参数个数为p+2,略去与p无关的常数,得回归模型的AIC公式为AIC=nln(SSE)+2p对每一个回归子集计算AIC,其中AIC最小者所对应的模型是“最优”回归模型

8、§5.2所有子集回归准则4Cp统计量达到最小1964年马勒斯(Ma

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。