分类与决策树课件.ppt

ID：57013145

大小：874.50 KB

页数：72页

时间：2020-07-26

资源描述：

《分类与决策树课件.ppt》由会员上传分享，免费在线阅读，更多相关内容在教育资源-天天文库。

1、第3章分类与预测主要内容分类与决策树概述ID3、C4.5与C5.0CART分类VS.预测分类和预测是两种数据分析形式，用于提取描述重要数据类或预测未来的数据趋势的模型分类：预测类对象的分类标号（或离散值）根据训练数据集和类标号属性，构建模型来分类现有数据，并用来分类新数据预测：建立连续函数值模型比如预测空缺值，或者预测顾客在计算机设备上的花费典型应用欺诈检测、市场定位、性能预测、医疗诊断分类是一种应用非常广泛的数据挖掘技术分类与预测的区别：当估计的属性值是离散值时，这就是分类；当估计的属性值是连续值时，这就是预测。分类和预测---示例分类银行贷款员需要分析数据，来

2、弄清哪些贷款申请者是安全的，哪些是有风险的（将贷款申请者分为“安全”和“有风险”两类）我们需要构造一个分类器来预测类属编号，比如预测顾客属类预测银行贷款员需要预测贷给某个顾客多少钱是安全的构造一个预测器，预测一个连续值函数或有序值，常用方法是回归分析数据分类——一个两步过程(1)第一步，也成为学习步，目标是建立描述预先定义的数据类或概念集的分类器分类算法通过分析或从训练集“学习”来构造分类器。训练集由数据库元组（用n维属性向量表示）和他们相对应的类编号组成；假定每个元组属于一个预定义的类训练元组：训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提供

3、数据分类——一个两步过程(2)第二步，使用模型，对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本，将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要独立于训练样本集，否则会出现“过分拟合”的情况第一步——建立模型训练数据集分类算法IFrank=‘professor’ORyears>6THENtenured=‘yes’分类规则第二步——用模型进行分类分类规则测试集未知数据(Jeff,Professor,4)Tenured?监督学习VS.无监督学习监督学习（用于分类）模型的学习在被告知每个训练样

4、本属于哪个类的“指导”下进行新数据使用训练数据集中得到的规则进行分类无监督学习（用于聚类）每个训练样本的类编号是未知的，要学习的类集合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号或进行聚类数据预测的两步过程数据预测也是一个两步的过程，类似于前面描述的数据分类对于预测，没有“类标号属性”要预测的属性是连续值，而不是离散值，该属性可简称“预测属性”E.g.银行贷款员需要预测贷给某个顾客多少钱是安全的预测器可以看作一个映射或函数y=f(X)其中X是输入；y是输出，是一个连续或有序的值与分类类似，准确率的预测，也要使用单独的测试集3.1决策树概述决策树(

5、DecisionTree)一种描述概念空间的有效的归纳推理办法。基于决策树的学习方法可以进行不相关的多概念学习，具有简单快捷的优势，已经在各个领域取得广泛应用。决策树是一种树型结构，其中每个内部结点表示在一个属性上的测试，每个分支代表一个测试输出，每个叶结点代表一种类别。决策树学习是以实例为基础的归纳学习。从一类无序、无规则的事物（概念）中推理出决策树表示的分类规则。概念分类学习算法：来源于Hunt,Marin和Stone于1966年研制的CLS学习系统，用于学习单个概念。1979年,J.R.Quinlan给出ID3算法，并在1983年和1986年对ID3进行了总结和

6、简化，使其成为决策树学习算法的典型。Schlimmer和Fisher于1986年对ID3进行改造，在每个可能的决策树节点创建缓冲区，使决策树可以递增式生成，得到ID4算法。1988年，Utgoff在ID4基础上提出了ID5学习算法，进一步提高了效率。1993年，Quinlan进一步发展了ID3算法，改进成C4.5算法。另一类决策树算法为CART，与C4.5不同的是，CART的决策树由二元逻辑问题生成，每个树节点只有两个分枝，分别包括学习实例的正例与反例。其基本思想是以信息熵为度量构造一棵熵值下降最快的树，到叶子节点处的熵值为零，此时每个叶节点中的实例都属于同一类。决策

7、树学习采用的是自顶向下的递归方法。决策树的每一层节点依照某一属性值向下分为子节点，待分类的实例在每一节点处与该节点相关的属性值进行比较，根据不同的比较结果向相应的子节点扩展，这一过程在到达决策树的叶节点时结束，此时得到结论。从根节点到叶节点的每一条路经都对应着一条合理的规则，规则间各个部分（各个层的条件）的关系是合取关系。整个决策树就对应着一组析取的规则。决策树学习算法的最大优点是，它可以自学习。在学习的过程中，不需要使用者了解过多背景知识，只需要对训练例子进行较好的标注，就能够进行学习。如果在应用中发现不符合规则的实例，程序会询问用户该实例的正确分

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 72



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

分类与决策树课件.ppt

分类与决策树课件.ppt

相关文章

相关标签