经典线性回归模型自变量选择.doc

经典线性回归模型自变量选择.doc

ID:61781175

大小:117.50 KB

页数:11页

时间:2021-03-20

经典线性回归模型自变量选择.doc_第1页
经典线性回归模型自变量选择.doc_第2页
经典线性回归模型自变量选择.doc_第3页
经典线性回归模型自变量选择.doc_第4页
经典线性回归模型自变量选择.doc_第5页
资源描述:

《经典线性回归模型自变量选择.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、§2.9自变量选择信息时代的一个重要特征是数据便宜信息值钱,我们经常要从海量数据中挖掘有用信息。比如影响产品质量的因素,从生产过程、员工培训过程到原材料供应过程,可能多达几百个,甚至上千个。对这些质量指标和影响因素制造商在日常生产管理过程中都有记录。现在的问题是如何从这众多的影响因素中找出影响产品质量的重要因素。有时只需判断一个自变量对因变量是否有重要影响,而不需要了解它们之间的精确定量关系。比如判断原材料供应对产品质量是否有重要影响比了解它们之间的精确定量关系更重要。线性回归模型的自变量选择就是用于有众多自变量时识别重要自变

2、量的方法。用于线性回归模型自变量选择的方法可分为两类:全局择优法和逐步回归法。一、全局择优法全局择优法就是用衡量回归模型与数据拟合程度的准则,从全部可能的回归模型中选择对数据拟合最优的回归模型。对于一个包含P个自变量的回归问题,全部可能的回归模型有个,全局择优法要求出每个回归模型的准则值,然后找出最优的回归模型。回归模型对数据的拟合程度可用残差平方和来表示。残差平方和越小,模型拟合的越好。但残差平方和的大小与因变量的计量单位有关,因此我们定义了决定系数。决定系数越大,模型拟合的越好。决定系数不仅与因变量的计量单位无关,而且能说

3、明在因变量的变异中,归功于自变量变化的部分所占比例。但不论是用残差平方和还是用决定系数来度量线性拟合模型拟合程度,都会得出模型中包含越多自变量拟合就越好的结论。但在样本容量给定的情况下,自变量越多,模型就越复杂,模型参数估计就越不精确,导致模型应用的效果就越差。因此我们需要能综合用残差平方和表示的模型拟合精度和用模型中包含的自变量个数表示的模型复杂程度的准则,以便选择出最优的回归模型。回归分析中用于选择自变量的准则很多。由于残差平方和RSSp和决定系数R2只考虑模型拟合精度,因而只能作为自变量个数相同时自变量选择的准则。残差均

4、方s2和修正决定系数是一个综合模型拟合精度和模型复杂程度的准则。综合性准则除了残差均方和修正决定系数外,还有如下一些准则:·MallowsCp准则其中,s2为包含全部自变量的拟合模型的残差均方,RSSp为当前拟合模型的残差平方和,p为当前拟合模型的自变量个数。·信息准则信息准则根据公式计算,其中logLik=-n{log(RSS/n)+log(2π)+1}/2为当前拟合模型的对数似然函数,npar为当前拟合模型的参数个数,当k=2时称为AIC准则,当k=log(n)时称为BIC准则。在小样本情况下,AIC准则的表现不太好,为此

5、人们提出的修正AIC准则AICc,其计算公式为R中计算当前拟合模型信息准则的函数有(其中fit为当前拟合模型对象)AIC(fit,k=2)k=2(缺省)时计算k=log(n)时计算extractAIC(fit,scale,k=2)指定scale=s2,计算当前拟合模型的Cp准则不指定scale,k=2(缺省)时计算不指定scale,k=log(n)时计算R的附加程序包qpcR中的函数AICc(fit)可计算当前拟合模型的修正信息准则·预测平方和准则其中,,表示删除第i个案例后,用剩余的(n-1)个案例估计的拟合模型对第i个案例

6、的预测误差。R的附加程序包qpcR中的函数PRESS(fit)可计算预测平方和。此函数的返回值是一个列表,其中包含三个元素,(1)名字为stat的预测平方和;(2)名字为residuals的预测残差向量;(3)名字为P.square的P2,其计算公式为:R的的附加程序包leaps中的函数leaps()和regsubsets()均可用来完成全局最优的选择。leaps()依据Cp准则、修正R2准则和R2准则来选择全局最优回归模型;regsubsets()函数则只能选出不同自变量个数的局部最优的模型,我们再从这些局部的最优模型中选出

7、全局最优的模型。例:高速公路事故数据library(alr3)attach(highway)y=log(Rate)x1=log(Len)x2=log(ADT)x3=log(Trks)x4=log((Sigs*Len+1)/Len)x5=Slimx6=Shldx7=Lanex8=Acptx9=Itgx10=Lwidx11=as.numeric(Hwy==1)x12=as.numeric(Hwy==2)x13=as.numeric(Hwy==3)考虑汽车意外事故率(事故数/百万行车)与一些可能的相关之间的关系。数据包括1973年在

8、明尼苏达州的39段高速公路。ADT以千计的平均是流量(估计)Trks卡车容量在全部容量中的百分比Lane在两个方向上的交通车道总数Acpt路段中每英里的进入点Sigs路段中每英里信号交换数Itg路段中每英里的快车道类型交换数Slim时速限制(在1973年)Len段的长度(英里

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。