资源描述:
《数学建模_统计回归模型.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第6组:潘光松,刘博,杜晶习题10-6问题:某公司想用全行业的销售额作为自变量来预测公司的销售量,表中给出了1977—1981年公司的销售额和行业销售额的分季度数据(单位:百万元)(1)画出数据的散点图,观察用线性回归模型拟合是否合适。(2)建立公司销售额对全行业的回归模型,并用DW检验诊断随机误差项的自相关性。(3)建立消除了随机误差项自相关性之后的回归模型。分析与假设:表中的数据是以时间为顺序的。由于前期的销售额对后期的投资一般有明显的影响,从而对后期的后期的销售额造成影响。因此在此模型中因考虑到出现自相关型时,建立新的回归模型。记公司公司的销
2、售额为y,全行业的销售额为x,利用x来建立y的预测模型。基本回归模型:为了大致分析y和x的关系,首先利用表中的数据作出y对x关系作出散点图,如下(见图中的+)):做散点图:x=A(:,2);y=A(:,1);plot(x,y,'+')图一从图一中可以看出,随着x的增加,y的值有比较明显的线性增长趋势,图中的直线是用线性模型,因此可建立一元线性回归模型y=β0+β1x+ε(1)拟合的(其中ε是随机误差),这里假设ε(对t相互独立)且服从N(0,).根据表中的数据,对模型(1)直接利用matlab统计工具箱求解、算法如下:xx=[ones(20,1),
3、x];[b,bint,r,rint,stats]=regress(y,xx);holdon;yy=b(1)+b(1)*x;plot(x,yy)holdoff;得到的回归系数估计值及其置信区间(α=0.05),检验统计量R,F,P的结果如表1:参数参数估计值参数置信区间β0-1.4548【-1.9047-1.0048】β10.1763【0.17320.1793】R=1.0e+004*0.0001F=1.0e+004*1.4888P=1.0e+004*0.0000表1模型(1)的计算结果将参数的估计值带入(1)中得到yy=-1.4548+0.1763*
4、x(2)用matlab中的restool命令得到的交互式画面见图2,由此可以得出不同水平下的预测值及其置信区间。通过左下方的Export下拉式菜单。可以输出模型的统计结果。rstool(x,y)得出y1=24..569+/-0.051307当x=147.625时且通过Export下拉菜单可得出beta0=-1.4548,beta1=0.1763rmse(剩余标准差)=0.086056图二自相关性诊断与处理方法从表面上来看得到的基本模型(2)拟合度非常高,接近你100%,应该很满意了,但是这个模型并没有考虑到我们的数据是一个时间序列(将原表中的数据打
5、乱不影响,模型(2)的结果)。实际上对于时间序列数据做回归分析时,模型的随机误差ε有可能存在相关性,违背模型关于ε(对时间t)相互独立的基本假设,其他相关因素对公司销售额的影响肯能也有时间上的延续,即误差ε会出现自相关性。残差e=y-yy,yy为估计值e可作为随机误差ε的估计值,画出e~e的散点图,能够直观的判断ε的自相关性,模型(2)的残差可在计算过程中得到表2,以及数据e~e的图见图3做残差图:plot(x,r,'+')t12345e-0.0282-0.06420.01980.16160.0443t678910e0.04410.0412-0.0
6、608-0.0968-0.1516t1112131415e-0.1505-0.0555-0.02550.10330.0828t1617181920e0.10340.02630.0395-0.047-0.0359表2为了对ε的字相关性做定量的诊断,并在确诊后得到新的结果,我们考虑如下模型y=β0+β1x+ε,ε=Pε+u,其中p是自相关系数,
7、p
8、<=1,u相互独立且服从均值为0的正态分布,t=1,2,,,,,n;若p=0,则退化为普通的回归模型;若p>0,则随机误差ε存在正的自相关;若p<0,则随机误差ε存在负的自相关。利用D-W检验诊断自相关现象
9、如下:e=y-yy;ee=e(2:20,:);eee=e(1:19,:);y0=sum((ee-eee).^2);y1=sum(ee.^2);DW=y0/y1;p=1-0.5*DW;算出y0=0.0980y1=0.1326DW=0.7388p=0.6306因为DW≈2(1-p),所以0≤DW≤4,若p的估计值在0附近,则DW的值在2附近,ε的自相关行很弱,若p在正负1附近,则DW接近0或4,ε的自相关性很强。加入自相关后的模型利用表2给出的残差e,根据以上式子可得出DW=0.7388,对于显著性水平α=0.05,n=20,k=2,查D-W分布表,得
10、到检验的临界值dL=1.2和dU=1.4.现在DW