线性回归中的模型选择.ppt

线性回归中的模型选择.ppt

ID:52646637

大小:940.00 KB

页数:49页

时间:2020-04-12

线性回归中的模型选择.ppt_第1页
线性回归中的模型选择.ppt_第2页
线性回归中的模型选择.ppt_第3页
线性回归中的模型选择.ppt_第4页
线性回归中的模型选择.ppt_第5页
资源描述:

《线性回归中的模型选择.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、线性回归中的模型选择多元回归分析中,输入特征可能有许多,这些特征对模型都是必须的?否因为:预测准确性:当回归模型中变量增多时,预测的偏差的低但方差高(过拟合)可解释性:当回归模型中的预测子数目很多时,模型很难解释希望找到效果更明显的少数预测子1模型选择模型选择模型评估:用一些指标来衡量每个模型解析计算:AIC/BIC/MDL模拟计算:交叉验证/bootstap模型搜索:在模型空间中搜索,找到在某个衡量指标下最优的模型模型空间不大:穷举搜索否则:贪心搜索前向/后向/双向逐步上述模型选择是离散的,亦称子集选择。另一类方法为连续的收缩方法岭回归Lasso

2、2回顾:线性回归模型假定不依赖于x:其中模型类型:参数模型损失:平方误差损失参数选择:训练数据上的最小平方误差(最小二乘,在高斯噪声假设下,=极大似然)计算:矩阵求逆/QR分解模型选择:AIC/BIC3回顾:线性回归模型最小二乘参数估计的结果:点估计:偏差:方差:的无偏估计为:4回顾:线性回归模型预测结果:点估计:偏差:方差其中是固有的,与参数的估计无关。对不同的估计,得到的预测的方差不同(不同)5子集选择只保留变量的一个子集,将其余变量从模型中删除(将其系数置为0)当p较小时,可穷尽搜索最佳子集对每个,其中p为变量的总数目,找出容量为k的子集,计

3、算每个模型的得分(AIC/BIC)具体算法参考Furnival&Wilson1974容量较大的最佳子集不必包含容量较小的最佳子集6AIC:AkaikeInformationCriterionAIC为模型M测试误差的一个估计:其中为在模型M对应的训练集数据的对数似然函数,p为模型M中特征的数目我们选择测试误差最小的模型,等价于选择下述表达式最大的模型Akaike,Hirotugu(December1974)."Anewlookatthestatisticalmodelidentification".IEEETransactionsonAutomati

4、cControl19(6):训练集上的拟合度模型复杂度7AIC:AkaikeInformationCriterion当假设高斯噪声时,这样导出AIC另一种表示:其中为从一个低偏差估计的MSE估计低偏差估计:复杂模型,即包括所有特征的模型8BIC:BayesianInformationCriterion类似AIC,可用于极大对数似然实现的拟合中所以最小化BIC,等价于最大化最小描述长度(MDL)的结论同BICSchwarz,G.1978.Estimatingthedimensionofamodel.AnnalsofStatistics,6,461-4

5、64.9前向逐步回归从截距开始,每次增加一个特征计算增加特征后每个模型的AIC,假设当前模型有k个输入特征,则其AIC为:选择AIC最小的模型直到AIC不再变小10后向逐步回归从包含所有特征的模型开始,每次去掉一个特征计算去掉特征后每个模型的AIC选择AIC最小的模型直到AIC不再变小11例:前列腺癌—后向逐步回归所有变量都用:k=8去掉一个变量,k=7,去掉变量后的AIC分别为去掉最小AIC对应的特征,即去掉gleasonlcavollweightagelbphsvilcpgleasonpgg45100.797179.566873.948676.

6、226578.097275.485472.021575.020112例:前列腺癌—后向逐步回归(续)最小AIC为72.0215,再继续去掉一个变量:k=6此时最小的AIC(72.1945)也比72.0215大,不过也没比72.0215大多少所以根据AIC准则,用后向逐步回归最后选择的模型为k=7lcavollweightagelbphsvilcppgg4599.364877.915072.194574.230576.262773.487174.703713例:前列腺癌—后向逐步回归(续)如果不停止,而是继续后向逐步回归,直到删除所有特征,则接下来删

7、除的特征及其对应的AIC分别为k=7,删除gleason,AIC=72.0215k=6,删除age,AIC=72.1945k=5,删除lcp,AIC=73.2095k=4,删除pgg45,AIC=72.6790k=3,删除lbph,AIC=74.8309k=2,删除svi,AIC=77.1088k=1,删除lweight,AIC=89.7667k=0,删除lcavol,AIC=189.772714例:前列腺癌—后向逐步回归(续):模型与训练集的拟合程度模型越复杂,与训练数据拟合得越好,但可能过拟合AIC:测试误差的估计,与训练集的拟合程度和模型复杂

8、度都有关15例:前列腺癌—前向逐步回归不用任何变量:k=0增加一个变量,k=1,增加变量后的AIC分别为增加最小AIC对应

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。