资源描述:
《《线性回归模型》ppt课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、线性回归模型戴之瑶,魏凌云,王杨,周仕君中国人民大学统计学院2015级硕士生教材:孟生旺,《回归模型》,中国人民大学出版社,2015(2)主要内容1.1模型结构和假设1.2解释变量1.3参数估计1.4异方差与加权最小二乘估计1.5假设检验1.6模型诊断和改进1.7模型的评价与比较1.8应用示例1.1模型结构和假设(3)(4)1.1模型结构和假设假设我们感兴趣的变量是,希望建立它与其他个解释变量之间的函数关系。最一般的函数形式可以表示为:式中是随机误差。在线性回归模型中,设是一个线性函数,可得线性回归模型为:如果对因变量和解释变量有n次观测,第i次观测值记为和则相应的线性回归模
2、型可以表示为:为方便起见,线性回归模型可以表示为矩阵形式:式中,(5)(6)基本假设(1)误差项的均值为零,且与解释变量相互独立,即(2)误差项独立同分布,即每个误差项之间相互独立且每个误差项的方差都相等:(3)解释变量之间线性无关(4)正态假设,即假设误差项服从正态分布:在上述假设下,可得:1.2解释变量(7)(8)1.2解释变量1.2.1分类解释变量如果解释变量是分类变量,在建模过程中需要把分类解释变量转化为虚拟变量。为避免解释变量之间出现完全共线性,虚拟变量个数等于分类变量的水平数减去1。(9)Example:车型是一个分类解释变量,有A,B,C,D四个水平,可以转化为
3、x1,x2,x3三个虚拟变量,定义如下表所示:车型x1x2x3A100B010C001D000(10)假设车型是模型中唯一的解释变量,则线性回归模型的拟合值表示为:根据模型,可以求得不同车型条件下对因变量的拟合值为:在模型中,车型D是基准水平,也称参照水平。为了预测结果的稳定性,通常选择观测值较多的水平为基准水平。在R中的实现:type=factor(c("A","B","C","0D"))model.matrix(~type)车型=A车型=B车型=C车型=D(11)1.2.2交互效应交互效应是指一个解释变量对因变量的影响与另一个解释变量有关。譬如,不同性别的驾驶人,其年龄对
4、索赔频率的影响是不同的,即年龄和性别之间存在交互效应。(12)1.2.3变量的标准化为了消除量纲的影响,可以考虑对变量进行标准化处理,即:式中,(13)Example:表示汽车保险的索赔频率;表示驾驶人的年龄,是一个连续变量;表示性别,是一个虚拟变量,值为0表示男性,1表示女性;表示年龄和性别的交互效应;则线性回归模型的拟合值可以表示为:在模型中,年龄每增加一单位,对索赔频率拟合值的影响是一个跟性别有关的值,即:(14)基于标准化以后的数据建立的回归模型为:回归系数间有下述关系:标准化回归系数的绝对值大小度量了解释变量的相对重要性,值越大,表明该解释变量对因变量的影响越大。在
5、R中,用scale(data)实现标准化(15)1.2.4变量变换解释变量与因变量之间如果是非线性关系,可以考虑对解释变量进行变换或建立多项式回归模型。多项式回归是把一个解释变量的幂变换作为新的解释变量引入回归模型。为简化表述,不妨假设只有一个原始解释变量,则m次多项式回归模型的基本形式如下:所以多项式回归也属于线性回归模型。(16)在普通多项式回归中,多项式的阶数不同,参数估计结果也不同。为了克服这种缺陷,可以使用正交多项式回归模型,即把原来的解释变量转化为新的正交解释变量。譬如,三阶正交多项式回归模型为表示为:(17)在R中的实现:set.seed(10)x=1:20y=
6、2+x+x^2+runif(20)*50mod1=lm(y~x)mod2=lm(y~poly(x,2))mod3=lm(y~poly(x,19))plot(y~x,yaxs='i',pch=19,ylim=c(0,500),xlim=c(0,21),xaxs='i',las=1)abline(mod1)points(x,fitted(mod2),col=2,type='l',lty=4,pch='')points(x,fitted(mod3),col=4,type='l',lty=5,pch='')legend(1,450,c('一元线性回归','二次多项式回归','19次多
7、项式回归'),lty=c(1,2,3),col=c(1,2,4))(18)如果解释变量取值较大,多项式模型中高次项可能会导致计算溢出,从而使得对其参数的估计值出现下溢。解决这一问题的常用方法是对解释变量进行下述变换:如果模型中包含多个自变量(譬如两个),则模型可表示为:在多项式回归模型中,如果已经包含高次项,则所有的低次项通常也要保留在模型中。(19)1.3参数估计(20)(21)1.3参数估计1.3.1最小二乘估计回归参数的最小二乘估计可以通过最小化残差平方和求得:对S关于求偏导,并令其等于零,即得得