欢迎来到天天文库
浏览记录
ID:51998661
大小:477.00 KB
页数:19页
时间:2020-03-21
《数学实验——回归分析.doc》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、实验40回归分析分1黄浩2011011743一、实验目的1.了解回归分析的基本原理,掌握MATLAB实现的方法2.练习用回归分析解决实际问题二、实验内容1.《数学实验》第一版(问题2)问题叙述:电影院调查电视广告费用和报纸广告费用对每周收入的影响,得到下面的数据(见下表)。建立回归模型并进行检验,诊断异常点的存在并进行处理。每周收入9690959295959494电视广告费用1.52.01.52.53.32.34.22.5报纸广告费用5.02.04.02.53.03.52.53.0实验过程:本题是一个
2、二元回归问题,为了了解数据点的整体特性(线性、非线性),我们先对上述数据点做3维的散点图。使用代码:y=[9690959295959494];xl=[1.52.01.52.53.32.34.22.5];x2=[5.02.04.02.53.03.52.53.0];plot3(xlzx2zyz*+');grid经过旋转,找到了一个近似平而的位置:这说明两种广告费用都有可能分别独立地对每周收入有线性的关系,因此,不妨设y为每周收入,xl为电视广告费用,x2为报纸广告费用,建立二元线性回归的模型:y=Po+P
3、iXi+p2x2使用代码:y=[9690959295959494];xl=[1.52.01.52.53.32.34.22.5];x2=[5.02.04.02.53.03.52.53.0];n=8;X=[ones(n,1)xl'x2*];[bbintrrints]=regress(y1zX);bint,szrcoplot(rzrint)所得结果整理为:回归系数估计值置信区间P083.211678.805887.6174B11.29850.40072.1962322.33721.48603.1883R2F
4、Ps20.908924.94080.00250.4897因此,回归得到的公式为:y=83.2116+l・2985xi+2.3372x2因为三个回归系数的置信区间都不含零点,因此关于三个回归系数的原假设HO:Bi=0都被推翻;而且因F(l,n-2)分布大于F值的概率p<0.05,说明上述模型在整体上是有效的。同时,观察最后一行的其他数据,我们看到F和F的数值都比较大,与刚才的假设检验是互相吻合的。同时,我们再看一下输出的残差和置信区间图:ResidualCaseOrderPlotscunp一sacc23
5、45678CaseNumber我们看到,第一•个点的残差置信区间不含零点,而又因残差应服从均值为0的正态分布,因而我们认为该点是异常的,是离群点,应予以剔除。使用剔除离群点后的数据重新进行回归分析(代码省略),结果如下:回归系数估计值■置信区间0081.488178.787884.18833I1.28770.7964I.7790B22.97662.32813.6250R2FPs20.976884.38420.00050.1257从上表可见,当剔除离群点后,F和F值都增大了,而且p和£都减小了,这都说明
6、,剔除离群点使得线性回归的精度得以提高,此时:y=81.4881+l・2877xi+2.9766x2而且,输出的残差和置信区间图如下所示:ResidualCaseOrderPlotscunp一satt:234567CaseNumber此时,离群点己经完全剔除,残差与正态分布基本吻合。(以下的讨论是一个不成功的尝试):进一步考虑,在实际生活屮,电视广告和报纸广告是相辅相成的,两种媒介同吋起作用吋,可能会带来一些附加收益,即可能存在xl与x2的交互项。因为本题的数据点很少,难以进行书屮的残差分析,因而我们
7、直接使用二元二项式回归,以期找到更合适的拟合公式,使用代码(暂时保留了刚才找到的离群点人y=[9690959295959494];xl=[1.52.01.52.53.32.34.22.5];x2=[5.02.04.02.53.03.52.53.0];x=[xl',x2'];rstoo丄(xzy');得到了一个交互式画面:然后,对该交互式画而提供的四种模型分别输出回归系数和剩余标准差,整理如下:PoPiP2P4PsSlinear83.21161.29852.3372一—0.6998purequadrat
8、ic76.30191.52806.6454-0.0779-0.6252一0.2496interaction88.8128-2.04170.29861.228()一0.4527Fullquadratic85.4135-3.08213.88690.93400.2830-0.47490.1415由剩余标准差的比较可知,使用包含线性项和完全二次项的模型可以获得最小的剩余标准差,即数据的拟合更为精确。但同时,我们发现,这种模型下(33.04、P5的值都远远小于Bl
此文档下载收益归作者所有