回归中常见的错误

回归中常见的错误

ID:39298059

大小:373.00 KB

页数:22页

时间:2019-06-29

回归中常见的错误_第1页
回归中常见的错误_第2页
回归中常见的错误_第3页
回归中常见的错误_第4页
回归中常见的错误_第5页
资源描述:

《回归中常见的错误》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第10部分:回归中常见的错误目的:回归是一个有力的工具,但在使用时必须小心。这一部分介绍回归法的缺点及常见失误。目标:了解不当使用回归的情形确定如何克服回归使用中易出现的失误第10部分:回归常见错误!!陷阱警惕!!小心回归中易出现的失误回归中易出现的失误回归是一个有力的工具,但经常会使用不当1.相关并不意指因果关系2.采用错误模型3.自变量(多重相互线性)之间的关系4.过度拟合;多重假设检验;过多自变量5.几个极值的影响6.从被动/偶然数据中得出确定的结论7.回归是用来对您从图中所得的结果进行统计性证明--始终先将数据画图。避免

2、回归中的易出现的失误…始终先将数据画图。控制“X”不会影响“Y”1.相关并非意指因果关系304050607080120150180210240270人口(000)鹳的数量虽然该相关系数(‘r)为0.918,但捕杀鹳并非是控制人口的好办法。2.采用错误模型(下列数据来自DonOlsson)数据:XY1030.52016.8507.91004.8直线y=25.8-0.241Xr=0.85二次方程y=36.1-0.881X+0.0057X2r=0.97最小x=77三次方程r=1.0Y=52.3-2.64X+0.0484X2-0.000

3、268X3当x=79时,Y最大正确模型y=2.17+285(1/x)r=0.9997该“正确”模型有以下优点:与理论相符合提供了一个优异的拟合参数少,形式简单模型参数具有物理意义内插值很可能有效我们仅用了四组数据来确立模型!LinearQuadratic线性及二次拟合方程05101520253035101622283440465258647076828894100linearquadraticCubicReciprocal三次及倒数拟合方程051015202530351016222834404652586470768288941

4、00cubicreciprocalLinearQuadraticReciprocalCubic初始实验重复实验3.自变量之间的关系(多重相互线性)在六组不同的电压及温度值下测得了一洗碗机回路扩张器的运行时间百分比。电压(V)温度F(T)操作时间百分比8074359076321007930110832812088251309423拟合方程为:运行时间百分比=52.3-0.25V+0.036T相关系数=0.998重复进行该实验,结果几乎完全一致.除了最后一项操作时间百分比从23变到20,其它结果相同…电压(V)温度F(T)操作时间百

5、分比8074359076321007930110832812088251309420拟合方程为:运行时间百分比=77.9-0.08V+0.50T相关系数=0.9943.自变量间关系(多重相互线性)(续)两组数据几乎一致,但拟合的方程却差别很大:1.操作时间百分比=52.3-0.25V+0.036T2.操作时间百分比=77.9-0.08V+0.50T两个自变量,电压和温度是相关联的。它们同时变化,所以不能确定结果中的变化是由于电压、温度还是兼而有之。如此实验所示,电压及温度值限定在较小的范围时,两个方程可求出几乎相同的操作百分比预

6、计值,但对于其它组的电压及温度值,所得预计值将会有很大的区别。(请看下一页的图示)不能将由于电压和温度变化产生的影响分开。 需要在图中圈内区域收集更多的数据。3.自变量间关系(多重相互线性)(续)图示值即为操作时间百分比volts温度F9523(20)9025852880303275358090100110120130在这些区域,进行更多试验4.过度拟合;多重假假设检验;过多的自变量当考虑许多自变量时,应预料到其中的一些自变量只是因偶然性而显得与因变量相关联。自变量的 数量95%的置信度至少有一个显著变量的概率1.052.103

7、.144.195.2310.4020.6430.7940.87“逐步”回归有时用于在许多变量中确定哪一个会提供最佳预计。这会导致过度拟合模型(过多的自变量),不能很好地预计未来值。试试看!首先产生随机数据,然后,再看它们是否显著相关在Minitab中,形成200行30栏的随机正态数据。将C1作为“响应变量值”,用其余栏作为预计值(自变量“X”)Calc>RandomData>Normal填写下示对话框:因为产生的是随机数据,每个人的数据都会有所不同!下一步,对这一组完全随机的数据进行回归分析统计>回归>回归响应值:C1预计值:C

8、2-C30低P值表示对Y值有显著影响。您有多少个低P值的预计值(<.05)?检查“极端值”。如果其为有效值,则在X=15时,收集更多的数据。不要自动遗弃“极端值”!!5.几个极端值的影响ROWXY11.011.021.511.532.013.042.512.25

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。