欢迎来到天天文库
浏览记录
ID:1687456
大小:178.00 KB
页数:41页
时间:2017-11-13
《第5章、违背基本假设的问题:多重共线性、异方差和自相关[统计学经典理论]》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第5章、违背基本假设的问题:多重共线性、异方差和自相关回顾并再次记住最小二乘法(LS)的三个基本假设:1.y=Xb+e2.Rank(X)=K3.e
2、X~N(0,s2I)§1、多重共线性(multicollinearity)1、含义及后果1)完全的多重共线性如果存在完全的多重共线性(perfectmulticollinearity),即在X中存在不完全为0的ai,使得a1x1+…+aKxK=0即X的列向量之间存在线性相关。因此,有Rank(X)3、X’X4、=0,即b=(X’X)-1X’y不存在,OLS失效。也即违背了基本假设2。例5、子:C=b1+b2nonlaborincome+b3salary+b4income+e2)近似共线性常见为近似共线性,即a1x1+…+aKxK0则有6、X’X7、0,那么(X’X)-1对角线元素较大。由于,,所以bk的方差将较大。例子:Longley是著名例子。2、检验方法1)VIF法(方差膨胀因子法,varianceinflationfactor)第j个解释变量的VIF定义为此处是第j个解释变量对其他解释变量进行回归的确定系数。若接近于1,那么VIF数值将较大,说明第j个解释变量与其他解释变量之间存在线性关系。从而,可以用VIF来度量多重8、共线性的严重程度。当大于0.9,也就是VIF大于10时,认为自变量之间存在比较严重的多重共线性。K个解释变量,就有K个VIF。可以计算K个VIF的平均值。若大于10,认为存在比较严重的多重共线性。VIF方法直观,但是Eviews不能直接计算VIF的数值。需要逐个进行回归,较为麻烦。1)相关系数矩阵例子:对于longley数据。在Eviews中,quick/groupstatistics/correlations,输入teyeargnpdgnparm,得到TEYEARGNPDGNPARMTE1.0000000.9713290.9708999、0.9835520.457307YEAR0.9713291.0000000.9911490.9952730.417245GNPD0.9708990.9911491.0000000.9915890.464744GNP0.9835520.9952730.9915891.0000000.446437ARM0.4573070.4172450.4647440.4464371.000000相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相关系数;度量了每一个解释变量对被解释变量的个别影响。除ARM之外,解释变量与被解释变量之间的相关系数都10、很大。但是,从剩下的相关系数矩阵可以看到,变量之间的相关系数也很大。表明变量之间存在严重的多重共线性。1)条件数(conditionnumber)首先计算X’X的最大和最小特征根,然后计算如下条件数若大于20,则认为存在多重共线性。3、处理方法1)剔除法(推荐此方法)方法:设法找出引起多重共线性的解释变量,并将之剔除在回归方程之外。准则1:逐个引入解释变量,根据R2的变化决定是否引入新的解释变量。如果R2变化显著,那么应该引入,反之不引入。准则2:剔除VIF最大的解释变量和不显著的解释变量。请试着计算每个解释变量的VIF值。2)岭回归(11、ridgeregressionestimator)回忆对于多元线性回归方程,系数的LS估计是岭回归估计就是计算此处D是一个对角矩阵,定义为具体操作:一般选取r从0.01开始,逐步增加,每次都计算,一直到稳定不变为止。此方法的优点:在matlab环境下,使用矩阵运算非常容易计算。缺点:一方面,Eviews不带此功能;另外一方面,缺乏对估计结果的解释的直观含义(是什么东西?)。3)主成分方法(principalcomponents)首先,计算对称矩阵X’X的特征根和特征向量,此处是特征向量矩阵是特征根矩阵,其中特征根从大到小排列。我们关心最12、大的前面L个。其次,计算,即是新的数据列向量,作为新的解释变量。最后,将y对Z进行回归,得到此方法并不难计算,但是问题仍然是很难解释估计结果。§2、异方差(heteroscedasticity)1、含义及影响y=Xb+e,var(ei)var(ej),ij,E(e)=0,或者记为即违背假设3。用LS估计,所得b是无偏的,但不是有效的。由于E(e)=0,所以有E(b)=b。即满足无偏性。但是,b的方差为其中。2、检验(White检验)举例说明。若回归方程为y=b0+b1x1+b2x2+e使用残差和解释变量,建立如下辅助回归方程(*)构造如13、下原假设H0:残差不存在异方差性直观上,若H0为真,那么会有什么?可以证明,若H0为真,则其中n为样本个数,R2为方程(*)的确定系数,m为除常数项外的回归系数的个数。Eviews命令:view/resid
3、X’X
4、=0,即b=(X’X)-1X’y不存在,OLS失效。也即违背了基本假设2。例
5、子:C=b1+b2nonlaborincome+b3salary+b4income+e2)近似共线性常见为近似共线性,即a1x1+…+aKxK0则有
6、X’X
7、0,那么(X’X)-1对角线元素较大。由于,,所以bk的方差将较大。例子:Longley是著名例子。2、检验方法1)VIF法(方差膨胀因子法,varianceinflationfactor)第j个解释变量的VIF定义为此处是第j个解释变量对其他解释变量进行回归的确定系数。若接近于1,那么VIF数值将较大,说明第j个解释变量与其他解释变量之间存在线性关系。从而,可以用VIF来度量多重
8、共线性的严重程度。当大于0.9,也就是VIF大于10时,认为自变量之间存在比较严重的多重共线性。K个解释变量,就有K个VIF。可以计算K个VIF的平均值。若大于10,认为存在比较严重的多重共线性。VIF方法直观,但是Eviews不能直接计算VIF的数值。需要逐个进行回归,较为麻烦。1)相关系数矩阵例子:对于longley数据。在Eviews中,quick/groupstatistics/correlations,输入teyeargnpdgnparm,得到TEYEARGNPDGNPARMTE1.0000000.9713290.970899
9、0.9835520.457307YEAR0.9713291.0000000.9911490.9952730.417245GNPD0.9708990.9911491.0000000.9915890.464744GNP0.9835520.9952730.9915891.0000000.446437ARM0.4573070.4172450.4647440.4464371.000000相关系数矩阵的第一列给出了被解释变量与每一个解释变量之间的相关系数;度量了每一个解释变量对被解释变量的个别影响。除ARM之外,解释变量与被解释变量之间的相关系数都
10、很大。但是,从剩下的相关系数矩阵可以看到,变量之间的相关系数也很大。表明变量之间存在严重的多重共线性。1)条件数(conditionnumber)首先计算X’X的最大和最小特征根,然后计算如下条件数若大于20,则认为存在多重共线性。3、处理方法1)剔除法(推荐此方法)方法:设法找出引起多重共线性的解释变量,并将之剔除在回归方程之外。准则1:逐个引入解释变量,根据R2的变化决定是否引入新的解释变量。如果R2变化显著,那么应该引入,反之不引入。准则2:剔除VIF最大的解释变量和不显著的解释变量。请试着计算每个解释变量的VIF值。2)岭回归(
11、ridgeregressionestimator)回忆对于多元线性回归方程,系数的LS估计是岭回归估计就是计算此处D是一个对角矩阵,定义为具体操作:一般选取r从0.01开始,逐步增加,每次都计算,一直到稳定不变为止。此方法的优点:在matlab环境下,使用矩阵运算非常容易计算。缺点:一方面,Eviews不带此功能;另外一方面,缺乏对估计结果的解释的直观含义(是什么东西?)。3)主成分方法(principalcomponents)首先,计算对称矩阵X’X的特征根和特征向量,此处是特征向量矩阵是特征根矩阵,其中特征根从大到小排列。我们关心最
12、大的前面L个。其次,计算,即是新的数据列向量,作为新的解释变量。最后,将y对Z进行回归,得到此方法并不难计算,但是问题仍然是很难解释估计结果。§2、异方差(heteroscedasticity)1、含义及影响y=Xb+e,var(ei)var(ej),ij,E(e)=0,或者记为即违背假设3。用LS估计,所得b是无偏的,但不是有效的。由于E(e)=0,所以有E(b)=b。即满足无偏性。但是,b的方差为其中。2、检验(White检验)举例说明。若回归方程为y=b0+b1x1+b2x2+e使用残差和解释变量,建立如下辅助回归方程(*)构造如
13、下原假设H0:残差不存在异方差性直观上,若H0为真,那么会有什么?可以证明,若H0为真,则其中n为样本个数,R2为方程(*)的确定系数,m为除常数项外的回归系数的个数。Eviews命令:view/resid
此文档下载收益归作者所有