机器学习ch02模型评估与选择.ppt

机器学习ch02模型评估与选择.ppt

ID:61531213

大小:2.08 MB

页数:44页

时间:2021-02-25

机器学习ch02模型评估与选择.ppt_第1页
机器学习ch02模型评估与选择.ppt_第2页
机器学习ch02模型评估与选择.ppt_第3页
机器学习ch02模型评估与选择.ppt_第4页
机器学习ch02模型评估与选择.ppt_第5页
资源描述:

《机器学习ch02模型评估与选择.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、胡鹏第二章:模型评估与选择大纲经验误差与过拟合评估方法性能度量比较检验偏差与方差阅读材料经验误差与过拟合错误率&误差:错误率:错分样本的占比:误差:样本真实输出与预测输出之间的差异训练(经验)误差:训练集上测试误差:测试集泛化误差:除训练集外所有样本由于事先并不知道新样本的特征,我们只能努力使经验误差最小化;很多时候虽然能在训练集上做到分类错误率为零,但多数情况下这样的学习器并不好经验误差与过拟合过拟合:学习器把训练样本学习的“太好”,将训练样本本身的特点当做所有样本的一般性质,导致泛化性能下降优化目标加正则项earlysto

2、p欠拟合:对训练样本的一般性质尚未学好决策树:拓展分支神经网络:增加训练轮数经验误差与过拟合过拟合:学习器把训练样本本身特点当做所有潜在样本都会具有的一般性质.欠拟合:训练样本的一般性质尚未被学习器学好.大纲经验误差与过拟合评估方法性能度量比较检验偏差与方差阅读材料评估方法现实任务中往往会对学习器的泛化性能、时间开销、存储开销、可解释性等方面的因素进行评估并做出选择我们假设测试集是从样本真实分布中独立采样获得,将测试集上的“测试误差”作为泛化误差的近似,所以测试集要和训练集中的样本尽量互斥。评估方法留出法:直接将数据集划分为两

3、个互斥集合训练/测试集划分要尽可能保持数据分布的一致性一般若干次随机划分、重复实验取平均值训练/测试样本比例通常为2:1~4:1通常将包含个样本的数据集拆分成训练集和测试集:评估方法交叉验证法:将数据集分层采样划分为k个大小相似的互斥子集,每次用k-1个子集的并集作为训练集,余下的子集作为测试集,最终返回k个测试结果的均值,k最常用的取值是10.评估方法与留出法类似,将数据集D划分为k个子集同样存在多种划分方式,为了减小因样本划分不同而引入的差别,k折交叉验证通常随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结

4、果的均值,例如常见的“10次10折交叉验证”假设数据集D包含m个样本,若令,则得到留一法:不受随机样本划分方式的影响结果往往比较准确当数据集比较大时,计算开销难以忍受评估方法自助法:以自助采样法为基础,对数据集有放回采样次得到训练集,用做测试集。实际模型与预期模型都使用个训练样本约有1/3的样本没在训练集中出现从初始数据集中产生多个不同的训练集,对集成学习有很大的好处自助法在数据集较小、难以有效划分训练/测试集时很有用;由于改变了数据集分布可能引入估计偏差,在数据量足够时,留出法和交叉验证法更常用。大纲经验误差与过拟合评估方法

5、性能度量比较检验偏差与方差阅读材料性能度量性能度量是衡量模型泛化能力的评价标准,反映了任务需求;使用不同的性能度量往往会导致不同的评判结果在预测任务中,给定样例集评估学习器的性能也即把预测结果和真实标记比较.回归任务最常用的性能度量是“均方误差”:性能度量对于分类任务,错误率和精度是最常用的两种性能度量:错误率:分错样本占样本总数的比例精度:分对样本占样本总数的比率分类错误率精度性能度量信息检索、Web搜索等场景中经常需要衡量正例被预测出来的比率或者预测出来的正例中正确的比率,此时查准率和查全率比错误率和精度更适合。统计真实标

6、记和预测结果的组合可以得到“混淆矩阵”查准率查全率性能度量根据学习器的预测结果按正例可能性大小对样例进行排序,并逐个把样本作为正例进行预测,则可以得到查准率-查全率曲线,简称“P-R曲线”平衡点是曲线上“查准率=查全率”时的取值,可用来用于度量P-R曲线有交叉的分类器性能高低性能度量比P-R曲线平衡点更用常用的是F1度量:比F1更一般的形式,:标准F1:偏重查全率(逃犯信息检索):偏重查准率(商品推荐系统)性能度量类似P-R曲线,根据学习器的预测结果对样例排序,并逐个作为正例进行预测,以“假正例率”为横轴,“真正例率”为纵轴可

7、得到ROC曲线,全称“受试者工作特征”.ROC图的绘制:给定个正例和个负例,根据学习器预测结果对样例进行排序,将分类阈值设为每个样例的预测值,当前标记点坐标为,当前若为真正例,则对应标记点的坐标为;当前若为假正例,则对应标记点的坐标为,然后用线段连接相邻点.性能度量若某个学习器的ROC曲线被另一个学习器的曲线“包住”,则后者性能优于前者;否则如果曲线交叉,可以根据ROC曲线下面积大小进行比较,也即AUC值.假设ROC曲线由的点按序连接而形成,则:AUC可估算为:AUC衡量了样本预测的排序质量。代价敏感错误率现实任务中不同类型的

8、错误所造成的后果很可能不同,为了权衡不同类型错误所造成的不同损失,可为错误赋予“非均等代价”。以二分类为例,可根据领域知识设定“代价矩阵”,如下表所示,其中表示将第i类样本预测为第j类样本的代价。损失程度越大,与值的差别越大。在非均等代价下,不再最小化错误次数,而是最小化“总

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。