机器学习模型选择与正则化课件.ppt

机器学习模型选择与正则化课件.ppt

ID:57004023

大小:3.38 MB

页数:32页

时间:2020-07-26

机器学习模型选择与正则化课件.ppt_第1页
机器学习模型选择与正则化课件.ppt_第2页
机器学习模型选择与正则化课件.ppt_第3页
机器学习模型选择与正则化课件.ppt_第4页
机器学习模型选择与正则化课件.ppt_第5页
资源描述:

《机器学习模型选择与正则化课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、机器学习之模型评估与模型选择重庆大学余俊良摘要损失函数与风险函数经验风险最小化和结构风险最小化模型评估与模型选择正则化与交叉验证损失函数与风险函数损失函数与风险函数损失函数与风险函数损失函数与风险函数经验风险最小化和结构风险最小化经验风险最小化和结构风险最小化经验风险最小化和结构风险最小化模型评估与模型选择训练误差与测试误差模型评估与模型选择训练误差与测试误差模型评估与模型选择过拟合与模型选择模型评估与模型选择过拟合与模型选择模型评估与模型选择过拟合与模型选择模型评估与模型选择过拟合与模型选择模型评估与模型选择过拟合与模型选择模型评估与模型选择过拟合与模型选择正则化与

2、交叉验证正则化与交叉验证正则化与交叉验证举例上图红色小叉代表给出的样本数据,我们看到了如果用一个二次函数来拟合这些数据,那么它给了我们一个对数据很好的拟合。然而,如果我们用一个更高次的多项式去拟合,最终我们可能会得到一个曲线,它能很好地拟合训练集,但却并不是一个好的结果,因为它过度拟合了数据,因此,一般性并不是很好。让我们考虑下面的假设,我们想要加上惩罚项,从而使参数θ3和θ4足够的小。正则化与交叉验证举例上图的式子是我们的优化目标,也就是说我们需要尽量减少代价函数的均方误差。对于这个函数我们对它添加一些项,加上1000乘以θ3的平方,再加上1000乘以θ4的平方,1

3、000只是我随便写的某个较大的数字而已。现在,如果我们要最小化这个函数,那么为了最小化这个新的代价函数,我们要让θ3和θ4尽可能小。因为,如果你在原有代价函数的基础上加上1000乘以θ3这一项,那么这个新的代价函数将变得很大,所以,当我们最小化这个新的代价函数时,我们将使θ3的值接近于0,同样θ4的值也接近于0,就像我们忽略了这两个值一样。如果我们做到这一点(θ3和θ4接近0),那么我们将得到一个近似的二次函数。正则化与交叉验证举例因此,我们最终恰当地拟合了数据,我们所使用的正是二次函数加上一些非常小,贡献很小项(因为这些项的θ3、θ4非常接近于0)。显然,这是一个更

4、好的假设。正则化与交叉验证更一般地,这里给出了正规化背后的思路。这种思路就是,如果我们的参数值对应一个较小值的话(参数值比较小),那么往往我们会得到一个形式更简单的假设。在我们上面的例子中,我们惩罚的只是θ3和θ4,使这两个值均接近于零,从而我们得到了一个更简单的假设,实际上这个假设大抵上是一个二次函数。但更一般地说,如果我们像惩罚θ3和θ4这样惩罚其它参数,那么我们往往可以得到一个相对较为简单的假设。实际上,这些参数的值越小,通常对应于越光滑的函数,也就是更加简单的函数。因此就不易发生过拟合的问题。我知道,为什么越小的参数对应于一个相对较为简单的假设,对你来说现在不

5、一定完全理解,但是在上面的例子中使θ3和θ4很小,并且这样做能给我们一个更加简单的假设,这个例子至少给了我们一些直观感受。正则化与交叉验证来让我们看看具体的例子,对于房屋价格预测我们可能有上百种特征,与刚刚所讲的多项式例子不同,我们并不知道θ3和θ4是高阶多项式的项。所以,如果我们有一百个特征,我们并不知道如何选择关联度更好的参数,如何缩小参数的数目等等。因此在正则化里,我们要做的事情,就是把减小我们的代价函数(例子中是线性回归的代价函数)所有的参数值,因为我们并不知道是哪一个或哪几个要去缩小。因此,我们需要修改代价函数,在这后面添加一项,就像我们在方括号里的这项。当

6、我们添加一个额外的正则化项的时候,我们收缩了每个参数。正则化与交叉验证下面的这项就是一个正则化项并且λ在这里我们称做正则化参数。λ要做的就是控制在两个不同的目标中的平衡关系。第一个目标就是我们想要使假设更好地拟合训练数据。我们希望假设能够很好的适应训练集。第二个目标是我们想要保持参数值较小。(通过正则化项)而λ这个正则化参数需要控制的是这两者之间的平衡,即平衡拟合训练的目标和保持参数值较小的目标。从而来保持假设的形式相对简单,来避免过度的拟合。对于我们的房屋价格预测来说,我们之前所用的非常高的高阶多项式来拟合,我们将会得到一个非常弯曲和复杂的曲线函数,现在我们只需要使

7、用正则化目标的方法,那么你就可以得到一个更加合适的曲线,但这个曲线不是一个真正的二次函数,而是更加的流畅和简单的一个曲线。这样就得到了对于这个数据更好的假设。正则化与交叉验证在正则化线性回归中,如果正则化参数值λ被设定为非常大,那么将会发生什么呢?我们将会非常大地惩罚参数θ1θ2θ3θ4…也就是说,我们最终惩罚θ1θ2θ3θ4…在一个非常大的程度,那么我们会使所有这些参数接近于零。正则化与交叉验证如果我们这么做,那么就是我们的假设中相当于去掉了这些项,并且使我们只是留下了一个简单的假设,这个假设只能表明房屋价格等于θ0的值,那就是类似于拟合了一条水平

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。