数据仓库与数据挖掘课件_第十章_模型选择与模型评估

ID：19674458

大小：910.50 KB

页数：44页

时间：2018-10-04

资源描述：

《数据仓库与数据挖掘课件_第十章_模型选择与模型评估》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、第10章模型选择与模型评估《数据挖掘与知识发现》(第2版)吉林大学计算机科学与技术学院李雄飞1数据挖掘与知识发现(第2版)模型选择与模型评估生成若干数据模型后，需要依据模型对数据的解释能力或预测能力，确定一个最优的模型。本章介绍模型选择和模型评估方法。主要讨论启发式方法，数据重用技术，以及模型选择和验证的解析方法，具体包括：模型的过拟合没有天生优越的分类器模型、模型选择和模型评估自助法Occam剃刀最小描述长度准则信息准则比较分类器的方法聚类评估2数据挖掘与知识发现(第2版)模型的过拟合分类模型的误差有

2、两类：训练误差（trainingerror）：也称为再代入误差（resubstitutionerror），是训练样本上的误分类比例。泛化误差（generalizationerror）：是模型在未知样本上的期望误差。一个好的分类模型应该同时具有低训练误差和低泛化误差。如果分类模型A拟合训练数据较好，但与另一个拟合训练数据相对较差的分类模型B相比，模型A具有更高的泛化误差，则称模型A过拟合。例，以二维数据为例解释过拟合。在图10.1二维数据集合中，数据点属于两类：标记为“o”的数据由三个独立的正态分布产生，1

3、200个。标记为“+”的数据由均匀分布产生。1800个。随机选取30%用于训练决策树，其余70%用于测试。为说明过拟合现象，对完全生长的决策树进行不同程度的剪枝。图10.2显示了不同节点数的决策树的训练误差和测试误差。3数据挖掘与知识发现(第2版)模型的过拟合模型拟合不足(modelunderfitting):训练误差和测试误差都较大。决策树生长不充分模型过拟合(modeloverfitting):训练误差继续降低，测试误差增大。决策树的规模过于复杂4数据挖掘与知识发现(第2版)模型的过拟合图10.3给出

4、了两颗具有不同规模的决策树，节点少的决策树具有较高训练误差，但具有较低的测试误差，而节点多的决策树出现过拟合。导致过拟合的因素：存在噪声数据缺少典型样本5数据挖掘与知识发现(第2版)没有天生优越的分类器考虑两类问题：设训练集D由模式xi以及与之相应的类别标签yi=，i=1，，n，yi由待学习的未知目标函数F(x)给出，即yi=F(xi)。多数情况下，F(x)都含有随机成分，相同的输入被分到不同的类别中，导致非零贝叶斯错误率。令H表示假设集或待学习的可能参数集合。h(x)H是特定的假设，如，神经网络

5、中的量化权值、泛函模型中的参数或者树中的决策集合等等。设P(h)表示算法训练后产生假设h的先验概率。P(hD)表示在数据集D上训练后产生假设h的概率。对于确定性学习算法，P(hD)在单一假设h外，处处为零。最近邻和决策树对于随机算法，P(hD)可能是一个分布。神经网络令E表示0-1损失函数或其他损失函数的误差。6数据挖掘与知识发现(第2版)没有天生优越的分类器评判学习算法的泛化性能：关于所有可能目标求和的误差期望值。显然，固定训练集D上期望误差率，与以输入的概率P(x)为权、学习算法P(hD)与

6、真实后验P(FD)“匹配”的情况的加权和有关。如果没有关于P(FD)的先验知识，不能检验任何特定的学习算法P(hD)，包括其泛化性能。当真实函数是F(x)，第k个候选学习算法的概率是Pk(h(x)D)时，非训练集的期望误差率是：7数据挖掘与知识发现(第2版)没有天生优越的分类器定理10.1：（没有免费的午餐，Nofreelunch，NFL）任给两个学习算法P1(hD)和P2(hD)，下列命题正确，且与样本分布P(x)及训练点个数n无关：(1)对所有目标函数F求平均，有1[EF,n]-2[

7、EF,n]=0；(2)任意固定的训练集D，对所有F求平均，有1[EF,D]-2[EF,D]=0；(3)对所有先验P(F)求平均，有1[En]-2[En]=0；(4)任意固定的训练集D，对所有先验P(F)求平均，有1[ED]-2[ED]=0.NFL定理表明：使用哪种算法完成分类任务，取决于问题本质特征，而不是数据挖掘者对哪个算法更熟悉。研究和试图说明某种算法具有天生的优越性是没有意义的。当面对一个新的分类问题时：(1)应该关注事务的本质先验信息、数据分布、训练样本数量、代价或奖励函

8、数等。(2)根据以上关于问题的“信息”，选择适当的分类算法。8数据挖掘与知识发现(第2版)没有天生优越的分类器例10.1：二值数据的NFL假设输入矢量由三个二值特征构成，给定目标函数F(x)，如表10.1。假设学习算法1认为每个模式除非被训练过，否则就属于类1；学习算法2认为每个模式除非被训练过，否则就属于类2。当训练数据集D含有三个样本时，两个算法分别给出假设h1和h2。计算非训练误差率为1[EF,D]=0.4和2

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 44



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

数据仓库与数据挖掘课件_第十章_模型选择与模型评估

数据仓库与数据挖掘课件_第十章_模型选择与模型评估

相关文章

相关标签