自变量选择与逐步回归

自变量选择与逐步回归

ID:30361601

大小:158.04 KB

页数:5页

时间:2018-12-29

自变量选择与逐步回归_第1页
自变量选择与逐步回归_第2页
自变量选择与逐步回归_第3页
自变量选择与逐步回归_第4页
自变量选择与逐步回归_第5页
资源描述:

《自变量选择与逐步回归》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、自变量选择与逐步回归一、全模型和选模型设研究某一实际问题,涉及对因变量有影响的因素共有m个,由因变量y和m个自变量构成的回归模型称为全模型。如果从可供选择的m个变量中选出p个,由选出的p个自变量组成的回归模型称为选模型。二、自变量选择对预测的影响自变量选择对预测的影响可以分为两种情况考虑,第一种情况是全模型正确而误用了选模型;第二种情况是选模型正确而无用了全模型。以下是这两种情况对回归的影响。1、全模型正确而误用选模型的情况性质1,在与的相关系数不全为0时,选模型回归系数的最小二乘估计是全模型相应参数的

2、有偏估计,即()性质2,选模型的预测是有偏的。性质3,选模型的参数估计有较小的方差。性质4,选模型的预测残差有较小的方差。性质5,选模型的均方误差比全模型预测的方差更小。性质1和性质2表明,当全模型正确时,而舍去了m-p个自变量,用剩下的p个自变量去建立选模型,参数估计值是全模型相应参数的有偏估计,用其做预测,预测值也是有偏的。这是误用选模型产生的弊端。性质3和性质4表明,用选模型去作预测,残差的方差比用全模型去作预测的方差小,尽管用选模型所作的预测是有偏的,但得到的预测残差的方差下降了,这说明尽管全模

3、型正确,误用选模型是有弊也有利的。性质5说明,即使全模型正确,但如果其中有一些自变量对因变量影响很小或回归系数方差过大,丢掉这些变量之后,用选模型去预测,可以提高预测的精度。由此可见,如果模型中包含了一些不必要的自变量,模型的预测精度就会下降。2、选模型正确而误用全模型的情况全模型的预测值是有偏估计;选模型的预测方差小于全模型的预测方差;全模型的预测误差将更大。一个好的回归模型,并不是考虑的自变量越多越好。在建立回归模型时,选择自变量的基本知道思想是少而精。丢掉了一些对因变量y有影响的自变量后,所付出的

4、代价是估计量产生了有偏性。然而,尽管估计是有偏的,但预测偏差的方差会下降。另外,如果保留下来的自变量有些对因变量无关紧要,那么,方程中包括这些变量会导致参数估计和预测的有偏性和精度降低。因此,在建立实际问题的回归模型时,应尽可能剔除那些可有可无的自变量。三、所有子集回归1、所有子集的数目设在一个实际问题的回归建模中,有m个可供选择的变量,由于每个自变量都有入选和不入选两种情况,这样y关于这些自变量的所有可能的回归方程就有-1个,这里-1是要求回归模型中至少包含一个自变量,即减去模型中只包含常数项的这一种

5、情况。如果把回归模型中只包含常数项的这一种情况也算在内,那么所有可能的回归方程就有个。从另一个角度看,选模型包含的自变量数目p有从0到m共有m+1种不同的情况,而对选模型中恰包含p个自变量的情况,从全部m个自变量中选p个的方法共有线性组合个,因而所有选模型的数目为:。2、关于自变量选择的几个准则把选模型的残差平方和记为,当再增加一个新的自变量时,相应的残差平方和记为。根据最小二乘估计的原理,增加自变量时残差平方和将减少,减少自变量时残差平方和将增加。因此有,它们的负决定系数分别为:,,由于SST是因变量

6、的离差平方和,与自变量无关,因而有,即当自变量子集在扩大时,残差平方和随之减少,而复决定系数随之增大。因此,如果按残差平方和越小越好的原则来选择自变量子集,或者为提高复决定系数,不论什么变量只要多取就行,则毫无疑问选的变量越多越好。这样由于变量的多重共线性,给变量的回归系数估计值带来不稳定性,加上变量的测量误差积累,参数数目的增加,将使估计值的误差增大。因此,从数据与模型拟合优劣的直观考虑出发,认为残差平方和SSE最小的回归方程就是最好的,还曾用负相关系数R来衡量回归拟合好坏都不能作为选择变量的准则。准

7、则一:自由度调整复决定系数达到最大。当给模型增加自变量时,复决定系数也随之逐步增大,然而复决定系数的增大代价是残差自由度的减少,因为残差自由度等于样本个数与自变量个数之差。自由度小意味着估计和预测可靠性低。设为自由度调整后的复决定系数,其中,n为样本容量,p为自变量的个数。在实际问题的回归建模中,自由度调整复决定系数越大,所对应的回归方程越好。则所有回归子集中最大者对应的回归方程就是最优方程。从另外一个角度考虑回归的拟合效果,回归误差项的无偏估计为:,此无偏估计式中也加入了惩罚因子n-p-1,实际上就是

8、用自由度n-p-1作平均的平均残差平方和。当自变量个数从0开始增加时,SSE逐渐减小,作为除数的惩罚因子n-p-1也随之减小。当自变量个数从0开始增加时,先是开始下降然后稳定下来,当自变量个数增加到一定数量后,又开始增加。这是因为刚开始时,随着自变量个数增加,SSE能够快速减小,虽然作为除数的惩罚因子n-p-1也随之减小,但由于SSE减小的速度更快,因而是趋于减小的。当自变量数目增加到一定程度,应该说重要的自变量基本上都已经选上了,这时在增

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。