欢迎来到天天文库
浏览记录
ID:52033956
大小:633.00 KB
页数:41页
时间:2020-03-30
《一元线性回归(二).ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、一元线性回归(二)另外一个例子打开数据集wage,建立wage和educ的关系wage=-0.95+0.54educ+ε我们把利用OLS方法估计出的参数α和β称为OLS估计量,用表示。同时,以后每次做完回归后,我们将使用作为回归拟合直线的纵坐标,以区分样本点纵坐标Y。残差和拟合线的概念残差是每个样本的拟合值和实际值之间的差。用ei或者表示。样本拟合线:残差值:如何得到残差和拟合值在stata中做完回归后使用如下命令:predicty_hat,xbpredicte,reslistyy_hate可以发现e=y-y_hat因此,是Y的估计值或拟合值,而残差的大小决定了模型的优劣。直线上的
2、点的坐标是,样本点的坐标是Yi(或者ei)是从样本点到直线的距离。思考:ei与ui是否是一回事?有什么区别和联系?重写求解步骤,得到重要结论对上式各项分别求和,并移项可得第一个方程两边同除以n,可得将其带入到第二个方程合并同类项,并移项可得:使用关系式将其写成离差的形式:一些重要结论1.从方程可知样本回归线一定经过2.下列方程成立:分别定义常数向量、残差向量、解释向量以及拟合值向量为:写成内积的形式:可得:故残差向量e与常数向量I正交,而且也与解释向量x正交。3.残差向量e也与拟合值向量正交4.可以得到以下结论OLS方法得到的拟合线一定是所有直线中拟合效果最好的,但由于样本自身的原
3、因,拟合效果有好有坏。最典型的例子是错误的函数形式这是一个典型的对数函数的例子,用线性方程,模拟效果较差。拟合优度拟合优度R2:描述OLS回归线对样本数据的拟合效果;描述观测值在回归线附近的离散程度;同时描述了样本数据有多大程度可以被回归方程所解释。R2是指可由Xi解释(或预测)的Yi样本方差的比例。一个重要的公式:证明:其中:拟合优度对于所有样本点的平方和,均有下列结论:记总体平方和(TotalSumofSquares)回归平方和(ExplainedSumofSquares)残差平方和(ResidualSumofSquares)根据平方和分解公式,可将被解释变量的离差平方和分解为
4、模型可以解释与不可解释的部分。如果模型可以解释的部分所占比重越大,则样本回归线的拟合程度越好。定义拟合优度(goodnessoffit)为:TSS=ESS+RSSY的观测值围绕其均值的总离差(totalvariation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。在给定样本中,TSS不变,如果实际观测点离样本回归线越近,则ESS在TSS中占的比重越大,因此拟合优度:回归平方和ESS/Y的总离差TSS2、拟合优度R2统计量称R2为(样本)拟合优度/可决系数/判定系数(coefficientofdetermination)。拟合优度的取值范围:[0,
5、1]R2越接近1,说明实际观测点离样本线越近,拟合优度越高。由于每次向回归方程中增加解释变量,R2必然只增不减。为此,可以通过调整自由度对解释变量过多进行“惩罚”,因此,可以定义“校正的拟合优度”察看上述例题的拟合优度注意:1。拟合优度一定程度上反映了选取变量的对被解释变量的“解释能力”。2。拟合优度低一般说明方程忽略了某些重要的解释因素。回归标准误差(SER)回归标准误差(standarderroroftheregression.SER)是回归误差u的标准差估计量,是用因变量单位度量的观测值在回归线附近的离散程度。对于误差项ui,我们更关心它在回归线附近的离散程度,即标准差。希望
6、标准差越小越好。由于ui本身是不可知的,因此,实际上sui是无法获得的,为了模拟其数值大小,我们用的标准差作为ui的标准差的估计值,称为回归的标准误差。为什么要除以n-2?n-2是自由度。模型中样本值可以自由变动的个数,称为自由度。自由度=样本个数—样本数据受约束条件(方程)的个数。例如,样本数据个数为n,它们受k个方程的约束(系数矩阵秩为k),那么,自由度df=n-k。其中n-2为自由度。由于随机变量必须满足k+1个正规方程(一元线形回归模型中有2个方程),故只有n-k-1个是相互独立的。经过这样校正后,才是无偏估计。如果无任何特征和规律可言,整个计量模型的建立将无法开展,因此,
7、我们需要人为地为它设定一些假定条件。如果下列假定条件满足,我们就可以用最小二乘法对模型进行回归估计。这些假定条件被称为古典线性模型的经典假设假设1:线性假定(linearity)线性假设的含义是解释变量对yi的边际效应为常数。假设2:严格外生性(strictexogeneity)给定Xi时ui的条件分布均值为零E(ui
8、Xi)=0。同时:E(Yi
9、Xi)=E()=E()=理论上,随机误差项被假定为没有被纳入到模型中的微小影响,因此,没有理由相信这样一些影响会以一种系统
此文档下载收益归作者所有