资源描述:
《广义可加模型和经典线性回归模型比较探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、广义可加模型和经典线性回归模型比较探【摘要】本文首先从模型设定上比较了广义可加模型和经典线性回归模型的差异。然后,运用这两种模型进行实证分析,研究教育水平、工作年限、每天工作时间这三个变量对总收入的影响,比较这两种模型回归结果的不同。最后,进行总结。【关键词】广义可加模型,经典线性回归模型一、经典线性回归模型和广义可加模型的模型设定比较设Y为响应变量,XI,X2,X3,……,Xp为解释变量,经典线性回归模型一般可表示为如下形式:E(Y/Xl,X2,X3,,Xp)=?茁0+?茁1X1+?茁2x2++?茁pXp其中,?茁0,?茁1,?茁2,……,?茁p的参数估计一般通过最小二
2、乘来获得。上述的经典线性回归模型是参数模型。当模型中函数的具体形式未知,我们拟合参数模型时就会遇到困难。Stone(1985)第一次提出了可加模型,其形式为:E(Y/Xl,X2,X3,,Xp)=?琢+fl(XI)+f2(x2)+……+fp(Xp)其中,?琢为截距,fi(xi),1=1,2,……为光滑函数,是针对于每个解释变量的任意单变量函数,满足Esi(Xi)oHastie和Tibshirani(1990)年将可加模型应用到广义线性模型中,由此提出了广义可加模型:g(?滋)=?琢+fl(XI)+f2(x2)+……+fp(Xp)其中,?滋二E(Y/Xl,X2,X3,……,X
3、p),g(?滋)是连接函数。在该模型中,响应变量的分布不仅可以是正态分布,也可以是二项分布、卡方分布等。广义可加模型对样本的要求较少,适用范围非常广泛。比较经典线性回归模型与广义可加模型的形式,我们可以明显地看出其中的不同,广义可加模型中,各项没有具体的参数形式,该模型允许解释变量以非参数光滑的形式进入模型。广义可加模型的估计与经典线性回归模型相似,都是借助最小二乘法使期望值与观测值间的差距达到最小,但广义可加模型大大降低了线性设定带来的模型设定风险。二、实证分析(一)数据来源和解释变量的选取我们从2002年ChineseHouseholdIncomeProject(简称
4、CHIPS)的调查数据中选择了总收入作为被解释变量y,教育水平xl、工作年限x2、每日工作时间x3这三个变量作为解释变量,研究个人的教育水平、工作年限、每日工作时间对其总收入有什么样的影响。本文一共选取了10200个样本,运用R软件,分别用广义可加模型和经典线性回归模型进行估计。(二)经典线性回归模型和广义可加模型的估计结果比较经典线性回归模型估计结果显示,解释变量教育水平X1和工作年限x2的P值均小于2e-16,这两个变量显著。然而,每日工作时间x3的P值远大于0.1,该变量不显著。这些参数结果表明,用经典线性回归模型进行分析,教育水平、工作年限对总收入有着显著的正向影
5、响,而每日工作时间对总收入没有显著影响。而在广义可加模型的回归结果中,教育水平、工作年限和每日工作时间对总收入均存在显著影响。显然,从上述结果中我们可以看出,两种模型下,解释变量x3每天工作时间对总收入的影响结果不同。对这三个解释变量与响应变量之间的效应进行分析,我们发现教育水平、工作年限与总收入存在着正相关关系,虽然用线性估计误差会较大,但不会出现严重的错误,因此这两个解释变量通过检验。但是每天工作时间与总收入间的关系比较复杂,用线性模型进行估计就会存在较大的误差,甚至得出错误的结论。因此,如表1显示的那样,经典线性回归模型中每天工作时间的参数估计没有通过检验,而广义可
6、加模型中,该解释变量在5%显著性水平下通过了检验。我们再对这个两个模型进行ANOVA检验,经典线性回归模型的回归残差为7.07E+11,大于可加模型的回归残差6.99E+llo而且两者间的差异较大,P