欢迎来到天天文库
浏览记录
ID:18306002
大小:1.48 MB
页数:12页
时间:2018-09-16
《数据仓库与数据挖掘技术 第六章 决策树》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据仓库与数据挖掘技术第6章决策树方法6.1信息论的基本原理6.1.1信息论原理6.1.2互信息的计算1.定义2.出现概率3.条件概率4.子集概率5.子集条件概率6.信息熵7.互信息6.2常用决策树算法6.2.1ID3算法1.基本思想数据仓库与数据挖掘技术图6-1ID3决策树2.主算法数据仓库与数据挖掘技术图6-2ID3算法流程3.建树算法4.实例计算6.2.2C4.5算法1.信息增益比例的概念2.连续属性值的处理3.未知属性值的处理4.规则的产生5.案例计算数据仓库与数据挖掘技术图6-3天气结点及其分支图6-4C4.5算法形成的决策树数据仓库与数据挖掘技术6.3决策树剪枝6.3.1
2、先剪枝6.3.2后剪枝6.4由决策树提取分类规则6.4.1获得简单规则图6-5决策树6.4.2精简规则属性数据仓库与数据挖掘技术6.5利用SQLServer2005进行决策树挖掘6.5.1数据准备6.5.2挖掘模型设置6.5.3挖掘流程图6-6选择数据挖掘技术数据仓库与数据挖掘技术图6-7选择数据源视图图6-8指定表类型数据仓库与数据挖掘技术图6-9指定定型数据图6-10指定列的内容和数据类型图6-11完成数据挖掘结构的创建数据仓库与数据挖掘技术6.5.4挖掘结果分析图6-12挖掘得到的“次级”决策树图6-13挖掘得到的依赖关系图数据仓库与数据挖掘技术图6-14“余额”结点的依赖关系
3、图图6-15与“余额”结点链接强度最强结点示意图数据仓库与数据挖掘技术6.5.5挖掘性能分析图6-16列映射图数据仓库与数据挖掘技术图6-17属性“次级”的预测提升图习题61.概率分布[0:0625;0:0625;0:125;0:5]的熵是多少?2.汽车保险例子。假定训练数据库具有两个属性:年龄和汽车的类型。年龄——序数分类。汽车类型——分类属性。类——L:低(风险),H:高(风险)。使用ID3算法做出它的决策树。3.简述ID3和C4.5算法之间的异同。4.简述决策树剪枝的步骤。5.练习SQLServer2005决策树挖掘模型的构建。
此文档下载收益归作者所有