资源描述:
《多元线性回归的应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、多元线性回归的应用李坦达0811160005一.回归分析原理简述1.多元线性回归分析模型在实际中,常常会遇到一个因变量与多个自变量间数量关系的问题,直线回归分析模型无法解决这个问题,需要构造一个因变量与多个自变量间的线性数量关系模型,其数学模型为:Y=β0+β1X1+β2X2+…+βmXm+ε2ε~N(0,σ)式中,βi(i=0,1,2,…,m)称为偏回归系数,其意义为当其他自变量对应的因变量的线性影响固定时,βi反映了第i个自变量Xi对因变量Y线性影响的度量;ε表示回归值与测量值之间的误差。采用最小二乘法确定回归系数。对Y和X1,X
2、2,…,Xp分别进行n次独立观测,取得样本(Y1,Xi1,Xi2,…,Xip),i=1,2,…n,则多元线性回归模型的矩阵形式为:式中^^^^^^设的估计值β的估计值为β(b0,,bb12.......bp)’,Y的估计量为Y^^^(y,y,......,y)’,采用最小二乘法,得出多元线性回归模型:01p12.多元线性回归模型的检验当求出线性回归方程后,还需对回归方程进行显著性检验,一般采用统计方法对回归方程进行检验,如R检验,回归方程显著性的F检验,回归系数显著性的T检验(1)对回归方程的显著性检验是指检验假设如果H0成立,说明不
3、论如何变化,y并不随之而改变,显而易见,在这种情况下用模型(7)来表示y与的关系是不和适的。如果H0不成立,说明中至少有一个不等于零,从而y至少随中之一的变化而线性变化。因此,对回归方程显著性检验是从整体上看y与是否存在线性关系。其中回归平方和残差平方和对于给定的显著性水平α,当计算得到的F值满足时,H0不成立,认为在显著性水平α下,y与有显著的线性关系,即回归方程是显著的。反之,则认为回归方程不显著。(2)R检验.R在这里被称为复相关系数或全相关系数,复相关系R的计算公式为复相关系数R说明x1~xm这一组影响因素与Y的相关程度.R值
4、越接近1,说明利用多元线性回归的效果越好。(3)F检验F检验是用来检验整个回归系数是否有意义.构造统计量F为:2F服从第一自由度为m,第二自由度为n-m-1的F分布,给定显著水平A,查F分布表得FA(m,n-m-1).如果F>FA(m,n-m-1),则认为这一组回归系数有意义,可以利用所建立的多元线性回归预测模型进行预测;否则认为这一组回归系数无意义,所建立的多元回归模型不成立.(4)T检验.它是用来对每个回归系数是否有意义进行的检验.构造统计量T.其中cii是矩阵(X′X)主对角线的第j个元素,Tj服从自由度为n-m-1的分布.当给
5、定显著水平A,如果则认为xi对y有显著影响,否则认为无影响,应将相应的无影响因素去掉.(5)残差检验^残差是各观测值Yi与回归方程所对应得到的拟合值之差,实际上,它是线Y2性回归模型中误差ε的估计值。ε~N(0,σ)即有零均值和常值方差,利用残值的这种特性反过来考察原模型的合理性就是残差分析的基本思想。因此残差应该围绕零点随机出现,其期望应为0。二.适用问题在我们探讨理论如何应用理论模型之前先分析一下哪类问题适合用线性回归分析来解决。人们经常会遇到一些处于同一个统一体中的变量,这些变量相互联系、相互制约,客观上存在一定的关系。但由于随
6、机因素的影响,使变量之间的关系具有某种不确定性,无法得到精确的关系表达式。这时人们往往用统计的方法,在大量的试验和观察中,寻找隐藏在随机变量后的统计规律性,即相关关系。研究变量间相关关系时所建立的数学模型及所作的统计分析称为回归分析建模,它主要包括以下内容:(1)从一组数据出发,建立有相关关系的变量间的经验公式;(2)对所得关系式的可信程度进行统计检验;(3)从影响着某一个变量的诸多变量中,判断哪些变量的影响是显著的,哪些变量的影响不显著;(4)利用优化的关系式进行预测和控制。在此举例说明适合回归分析的问题类型。由于不定时发生山体滑坡
7、现象,盘3山公路一直是事故发生的高发带,那么我们就有意识要防范这样的的事故发生。对于一条新建成的盘山公路,我们自然要问几个基本问题:第一,山体滑坡跟哪些因素有关?这个问题探讨就是山体滑坡和其他因素的相关性问题,那么我们就可以总结这一山区不同地区历史上的山体滑坡记录,作为回归分析中的Y。再将这些地区的山体概况例如层岩性、降雨量、土地利用情况、植被覆盖率、地震烈度、岸坡和工程岩组等信息作为Xi。对Y和X进行回归分析,以及优化就得到了山体滑坡与山体概况的关系,以及各个因素对其影响程度大小。第二,哪些路段容易发生事故?在我们得到了上述回归模型
8、后就可以将公路沿途分段,利用模型带入这一段的山体概况Xii,就得到一个反映事故发生概率的数值,由此我们就可以回答这个问题。第三,如何防止事故的放生?这里我们利用回归分析得到的结果,对影响程度较大的因素进行治理,例如植被覆