欢迎来到天天文库
浏览记录
ID:19674458
大小:910.50 KB
页数:44页
时间:2018-10-04
《数据仓库与数据挖掘课件_第十章_模型选择与模型评估》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第10章模型选择与模型评估《数据挖掘与知识发现》(第2版)吉林大学计算机科学与技术学院李雄飞1数据挖掘与知识发现(第2版)模型选择与模型评估生成若干数据模型后,需要依据模型对数据的解释能力或预测能力,确定一个最优的模型。本章介绍模型选择和模型评估方法。主要讨论启发式方法,数据重用技术,以及模型选择和验证的解析方法,具体包括:模型的过拟合没有天生优越的分类器模型、模型选择和模型评估自助法Occam剃刀最小描述长度准则信息准则比较分类器的方法聚类评估2数据挖掘与知识发现(第2版)模型的过拟合分类模型的误差有
2、两类:训练误差(trainingerror):也称为再代入误差(resubstitutionerror),是训练样本上的误分类比例。泛化误差(generalizationerror):是模型在未知样本上的期望误差。一个好的分类模型应该同时具有低训练误差和低泛化误差。如果分类模型A拟合训练数据较好,但与另一个拟合训练数据相对较差的分类模型B相比,模型A具有更高的泛化误差,则称模型A过拟合。例,以二维数据为例解释过拟合。在图10.1二维数据集合中,数据点属于两类:标记为“o”的数据由三个独立的正态分布产生,1
3、200个。标记为“+”的数据由均匀分布产生。1800个。随机选取30%用于训练决策树,其余70%用于测试。为说明过拟合现象,对完全生长的决策树进行不同程度的剪枝。图10.2显示了不同节点数的决策树的训练误差和测试误差。3数据挖掘与知识发现(第2版)模型的过拟合模型拟合不足(modelunderfitting):训练误差和测试误差都较大。决策树生长不充分模型过拟合(modeloverfitting):训练误差继续降低,测试误差增大。决策树的规模过于复杂4数据挖掘与知识发现(第2版)模型的过拟合图10.3给出
4、了两颗具有不同规模的决策树,节点少的决策树具有较高训练误差,但具有较低的测试误差,而节点多的决策树出现过拟合。导致过拟合的因素:存在噪声数据缺少典型样本5数据挖掘与知识发现(第2版)没有天生优越的分类器考虑两类问题:设训练集D由模式xi以及与之相应的类别标签yi=,i=1,,n,yi由待学习的未知目标函数F(x)给出,即yi=F(xi)。多数情况下,F(x)都含有随机成分,相同的输入被分到不同的类别中,导致非零贝叶斯错误率。令H表示假设集或待学习的可能参数集合。h(x)H是特定的假设,如,神经网络
5、中的量化权值、泛函模型中的参数或者树中的决策集合等等。设P(h)表示算法训练后产生假设h的先验概率。P(hD)表示在数据集D上训练后产生假设h的概率。对于确定性学习算法,P(hD)在单一假设h外,处处为零。最近邻和决策树对于随机算法,P(hD)可能是一个分布。神经网络令E表示0-1损失函数或其他损失函数的误差。6数据挖掘与知识发现(第2版)没有天生优越的分类器评判学习算法的泛化性能:关于所有可能目标求和的误差期望值。显然,固定训练集D上期望误差率,与以输入的概率P(x)为权、学习算法P(hD)与
6、真实后验P(FD)“匹配”的情况的加权和有关。如果没有关于P(FD)的先验知识,不能检验任何特定的学习算法P(hD),包括其泛化性能。当真实函数是F(x),第k个候选学习算法的概率是Pk(h(x)D)时,非训练集的期望误差率是:7数据挖掘与知识发现(第2版)没有天生优越的分类器定理10.1:(没有免费的午餐,Nofreelunch,NFL)任给两个学习算法P1(hD)和P2(hD),下列命题正确,且与样本分布P(x)及训练点个数n无关:(1)对所有目标函数F求平均,有1[EF,n]-2[
7、EF,n]=0;(2)任意固定的训练集D,对所有F求平均,有1[EF,D]-2[EF,D]=0;(3)对所有先验P(F)求平均,有1[En]-2[En]=0;(4)任意固定的训练集D,对所有先验P(F)求平均,有1[ED]-2[ED]=0.NFL定理表明:使用哪种算法完成分类任务,取决于问题本质特征,而不是数据挖掘者对哪个算法更熟悉。研究和试图说明某种算法具有天生的优越性是没有意义的。当面对一个新的分类问题时:(1)应该关注事务的本质先验信息、数据分布、训练样本数量、代价或奖励函
8、数等。(2)根据以上关于问题的“信息”,选择适当的分类算法。8数据挖掘与知识发现(第2版)没有天生优越的分类器例10.1:二值数据的NFL假设输入矢量由三个二值特征构成,给定目标函数F(x),如表10.1。假设学习算法1认为每个模式除非被训练过,否则就属于类1;学习算法2认为每个模式除非被训练过,否则就属于类2。当训练数据集D含有三个样本时,两个算法分别给出假设h1和h2。计算非训练误差率为1[EF,D]=0.4和2
此文档下载收益归作者所有