欢迎来到天天文库
浏览记录
ID:4184420
大小:977.51 KB
页数:154页
时间:2017-11-29
《数据管理——决策树建模》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第四章决策树建模§4.1决策树介绍分类是数据挖掘的一个重要课题,它的目的是:构造一个分类函数或分类模型(也常称为分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。数据分类的过程一般来说主要包含两个步骤第一步,建立一个描述已知数据集类别或概念的模型第二步,利用所获得的模型进行分类操作§4.1决策树介绍链接分类是数据挖掘的一个重要课题,它的目的是:构造一个分类函数或分类模型(也常称为分类器),该模型能把数据库中的数据项映射到给定类别中的某一个。数据分类的过程一般来说主要包含两个步骤第一步,建立一个描述已知数据集类别或概念的模型第二步
2、,利用所获得的模型进行分类操作§4.1决策树介绍-2第一步,建立一个描述已知数据集类别或概念的模型该模型是通过对数据库中各数据进行内容的分析而获得的。分类学习方法所使用的数据集称为训练样本集合,每一数据行都属于一个确定的数据类别,其类别值是由一个属性来描述的(被称为类别标记属性)。因此分类学习又可称为监督学习,它是在已知训练样本类别情况下,通过学习建立相应模型。而无监督学习则是在训练样本的类别与类别个数均未知的情况下进行的,如聚类分析。§4.1决策树介绍-2第二步,利用所获得的模型进行分类操作首先对模型分类准确率进行估计。Holdout方法
3、是一种简单的估计方法,它利用一组带有类别的样本(称为测试样本)对由训练样本所构造出模型的准确性进行测试,通常测试样本是随机获得的,且与训练样本独立同分布。模型的准确性可以通过由该模型所正确分类的测试样本个数所占总测试样本的比例得到。即对于每一个测试样本,比较其已知的类别与学习所获模型的预测类别。§4.1决策树介绍-2若模型的准确率是通过对训练数据集本身的测试所获得,由于学习模型倾向于过分逼近训练效据,从而造成对模型测试准确率的估计过于乐观。因此需要使用一个测试数据集来对学习所获模型的准确率进行测试工作。如果一个学习所获模型的准确率经测试
4、被认为是可以接受的,那么就可以使用这一模型对未来数据行或对象(其类别未知)进行分类,即利用学习所获得的模型进行预测,对未知类别的数据行或对象判断其类别(属性)取值。由训练数据产生分类规则由分类规则对新的样本数据进行分类§4.1决策树介绍-2常用的分类预测算法:决策树归纳分类贝叶斯分类基于规则的分类用后向传播分类遗传算法、粗糙集方法、模糊集方法§4.1决策树介绍-24.1.1决策树的基本知识决策树方法最早产生于20世纪60年代,是由Hunt等人研究人类概念建模时建立的学习系统CLS(conceptlearningsystem)。到了70年
5、代末,J.RossQuinlan提出ID3算法,引进信息论中的有关思想,提出用信息增益(informationgain)作为特征判别能力的度量,来选择属性作为决策树的节点,并将建树的方法嵌在一个迭代的程序之中。当时他的主要目的在于减少树的深度,却忽略了叶子数目的研究。1975年和1984年,分别有人提出了CHAID和CART算法。1986年,J.C.Schlinner提出ID4算法。1988年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法为基础研究出C4.5算法。新算法在对预测变量的缺失值处理、剪枝技术
6、、派生规则等方面作了较大的改进,C5.0是C4.5的商业改进版。4.1.1决策树的基本知识决策树技术发现数据模式和规则的核心是归纳算法。归纳是从特殊到一般的过程。归纳推理从若干个事实表征出的特征、特性或属性中,通过比较、总结、概括而得出一个规律性的结论。归纳学习的过程就是寻找一般化描述(归纳断言)的过程。这种一般化描述能够解释给定的输入数据,并可以用来预测新的数据。归纳学习由于依赖于经验数据,因此又称作经验学习。4.1.1决策树的基本知识-2归纳学习存在一个基本假定:任一模型如果能在足够大的训练样本集中很好地逼近目标函数,则它也能在未见样
7、本中很好地逼近目标函数。这个假定是归纳学习有效性的前提条件。归纳过程就是在描述空间中进行搜索的过程。4.1.1决策树的基本知识-2归纳可以分为自下而上、自上而下和双向搜索三种方式自下而上法一次处理一个输入对象,将描述逐步一般化,直到最终的一般化描述。自上而下法则对可能的一般化描述集进行搜索,试图找到一些满足一定要求的最优的描述。双向搜索方式则是这两者的结合。4.1.1决策树的基本知识-2决策树学习是应用最广的归纳推理算法之一。它是一种逼近离散函数值的方法,分类精度高,操作简单,并且对噪声数据有很好的稳健性,因而成为比较实用且比较流行的
8、数据挖掘算法。它的最大优点是,在学习过程中不需要使用者了解很多背景知识,只要训练样本集能够用“属性-值”的方式表达出来就能使用决策树学习算法来分类。4.1.1决策树的基本知识-
此文档下载收益归作者所有