欢迎来到天天文库
浏览记录
ID:16210500
大小:151.84 KB
页数:11页
时间:2018-08-08
《一元线性回归方程的应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第四节 一元线性回归方程的应用回归方程最主的应用就是用它进行估计或预测。只要r2≠1,估计误差就不可避免。因而在应用回归方程时,需要对估计的误差以及与之相联系的一些问题有所了解。一、回归方程的建立与预测(或估计)对于一组X、Y的数据,我们可以建立回归方程,有了y对X的回归方程,也就找到了X与y之间变化的数量关系,对于任意一个X值都可估计出与之对应的y值。一)回归方程的建立例 下面是20名工作人员的智商和某一次技术考试成绩,根据这个结果求出考试成绩对智商的回归方程。如果另有一名工作人员智商为120,则估计一下若让他也参加技术考试,将会得多少分?解:经检验两者具有线性关系计算
2、得:X与Y的均值:107 71标准差:13.69 11.63 r=0.86代入公式则回归方程为:NO智商X成绩Y估计Y'NO智商X成绩Y估计Y'1895557.8611845354.212977463.7121218281.2231268784.8713975863.74876056.4141016066.6251197179.7615926760.0561015466.62161108073.1971309087.79171288586.3381157376.84181117373.9291086771.7319997165.16101057069.542
3、01209080.49二)回归方程的检验1.方差分析法SSR=1997.48SST=2705.14 SSE=707.66F=MSR/MSE=(SSR/dfR)/(SSE/dfE)=1997.48/(707.66/18)=50.81查表F(1,18)=8.28(0.01)或 4.41(0.05) 结果显著2.回归系数法SX=13.69 SY=11.63 b=0.73 r=0.86三)用回归方程进行预测若X=120,代入回归方程得=80.5就是说,这位工作人员虽没参加技术考试,但根据他的智商,估计其技术考试的分数应该为80.5。如果有几位智商等于120的工作
4、人员,实际参加考试,不一定每个人的分数都是80.5(20号被试就是90分),因此,这个80.5应理解为智商等于120的工作人员技术考试的代表值。如X=97,代入回归方程得63.7,而事实上,数据中有两人X=97,而其实际y值分别为74和58。衡量y值在估计值上下波动的统计量用以为中心的y值的标准差,即误差的标准差:一元线性回归的基本假设之一是:与每个X值对应的y值构成正态分布的子总体,且各个子总体方差相等。因此回归线上下各一个Syx的区间内应包括所有数据个数的68%,回归线上下各2个Syx的区间内应包括所有数据个数的95.44%当X=97时,估计值是63.7,尽管实际上它
5、对应的值不一定为63.7,但63.7±2×6.27区间内一定包括了95.44%个对应y值的个数。Syx(Y值以Y的估计值为中心的标准差)与Sy(Y值以Y的均值为中心的标准差)的关系:若不考虑自由度或样本容量很大时,y值以为中心的标准差Syx: Syx(Y值以Y的估计值为中心的标准差)与Sy(Y值以Y的均值为中心的标准差)的关系:若考虑自由度时,Syx四)回归方程的预测区间预测区间:利用求出的回归方程进行预测,当X=97时y的预测值为63.7,曾指出虽然实际上X=97时,y不一定为63.7,但63.7±2×6.77(即51.16~76.24)区间内一定包括了与X=97对应
6、的Y值个数的95.44%,或者说有95.44%的y值均在此范围之间。当不需要考虑自由度或样本容量很大时,y值以为中心的标准差为:y值以为中心的标准差为将本例数据代入并计算得: Syx=5.94Sy=11.63 Syx<Sy说明在回归线上下波动比在平均线上下波动要小。若考虑自由度:本题,当X=97时,Yo的区间:五)真值的预测区间利用求出的回归方程进行预测,当X=97时y的预测值为63.7,曾指出虽然实际上X=97时,y不一定为63.7,但有95.44%的y值均在51.16~76.24之间。这个估计是针对样本回归方程y=0.73X-7.11而言的,也就是说,这个估计范围只
7、考虑了y值在回归方程上下的波动,并不考虑回归方程的变动,其实,回归方程因样本的不同也要发生变动,如果再抽取20个工作人员作为另一个样本,那么求出来的智商与技术考试成绩的回归方程就不一定是y=0.73X-7.11,因此,63.7并不能真正作为与X=97所对应y值的代表值,它只是在y=0.73X-7.11情况下算出的代表值。设与某个X值(以Xp表示)对应的yp的真正值为y0(简称真值或理论值),那么,从Xp来预测真值y0时,误差将来自两个方面。一是yp以为中心的变异;二是为样本回归线本身的变异,即的变异。因此,误差的标准差应该是两
此文档下载收益归作者所有