资源描述:
《数学建模讲义统计模型》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数学建模讲义统计模型—回归分析主要内容0引例1(多元)线性回归模型2参数的最小二乘估计3线性关系的显著性检验4区间预测5参数的区间估计(假设检验)6matlab多元线性回归7matlab非线性回归8非线性回归化为线性回归9matlab逐步回归10综合实例:牙膏的销售量11综合实例:投资额与国民生产总值和物价指数例1:水泥凝固时放出的热量y与水泥中4种化学成分x1、x2、x3、x4有关,今测得一组数据如下,试确定一个线性模型.线性关系是否显著?当x=(8,30,10,10)时,95%的可能y落在哪个区间?是否4种化学成分都对释放的热量有显著影响?y还受其他因素影响吗?如x1*x2,yt
2、-1,xt-10引例为了可以使用普通最小二乘法进行参数估计,需对模型提出若干基本假设:(1)随机误差项服从0均值、同方差的正态分布:(2)随机误差项在不同样本点之间是独立的,不存在序列相关:(3)随机误差项与解释变量之间不相关:1多元线性回归多元线性回归称为回归平面方程.解得2参数的最小二乘估计(Ⅰ)F检验法(Ⅱ)r检验法(残差平方和)3线性关系的显著性检验3线性关系的显著性检验记:回归平方和:残差平方和:则线性关系不显著,反之显著。若=2677.9=47.86(1)点预测(2)区间预测4预测残差平方和:4预测在未知点的点预测为:而y的置信水平1-的区间预测为:其中:(7,40,10
3、,30)y=89.70(89.70-18.32,89.70+18.32)经常听到这样的说法,“如果给定解释变量值,根据模型就可以得到被解释变量的预测值为……值”。这种说法是不科学的,也是统计模型无法达到的。如果一定要给出一个具体的预测值,那么它的置信水平则为0;如果一定要回答以100%的置信水平处在什么区间中,那么这个区间是∞。在实际应用中,我们当然也希望置信水平越高越好,置信区间越小越好。如何才能缩小置信区间?(1)置信水平与置信区间是矛盾的。但可增大样本容量n,使临界值t减小。(2)更主要的是提高模型的拟合优度,以减小残差平方和。设想一种极端情况,如果模型完全拟合样本观测值,残差
4、平方和为0,则置信区间也为0。(3)提高样本观测值的分散度。在一般情况下,样本观测值越分散,(X’X)-1越小。5参数的区间估计(假设检验)记:故bi的区间估计为:则有:若因素xi不重要,则有bi=0,即上述区间包含0。-99.1786223.9893-0.16633.2685-1.15892.1792-1.63851.8423-1.77911.49105逐步回归(4)“有进有出”的逐步回归分析。(1)从所有可能的因子(变量)组合的回归方程中选择最优者;(2)从包含全部变量的回归方程中逐次剔除不显著因子;(3)从一个变量开始,把变量逐个引入方程;选择“最优”的回归方程有以下几种方法:
5、“最优”的回归方程就是包含所有对Y有影响的变量,而不包含对Y影响不显著的变量回归方程。以第四种方法,即逐步回归分析法在筛选变量方面较为理想.这个过程反复进行,直至既无不显著的变量从回归方程中剔除,又无显著变量可引入回归方程时为止。“有进有出”的逐步回归分析(组合优化)从一个自变量开始,视自变量Y作用的显著程度,从大到小地依次逐个引入回归方程。但当引入的自变量由于后面变量的引入而变得不显著时,要将其剔除掉。引入一个自变量或从回归方程中剔除一个自变量,为逐步回归的一步。对于每一步都要进行Y值检验,以确保每次引入新的显著性变量前回归方程中只包含对Y作用显著的变量。[b,bint,r,rin
6、t,stats]=regress(Y,X,alpha)回归系数的区间估计残差置信区间6matlab多元线性回归引例1的解1、输入数据:x=[143145146147149150153154155156157158159160162164]';X=[ones(16,1)x];Y=[8885889192939395969897969899100102]';2、回归分析及检验:[b,bint,r,rint,stats]=regress(Y,X)得到结果:b=bint=-16.0730-33.70711.56120.71940.60470.8340stats=0.9282180.95310.
7、0000即;的置信区间为[-33.7017,1.5612],的置信区间为[0.6047,0.834];r2=0.9282,F=180.9531,p=0.0000。p<0.05,可知回归模型y=-16.073+0.7194x成立。3、残差分析,作残差图:rcoplot(r,rint)从残差图可以看出,除第二个数据外,其余数据的残差离零点均较近,且残差的置信区间均包含零点,这说明回归模型y=-16.073+0.7194x能较好的符合原始数据,而第二个数据可视为