C4.5算法概述汇编.doc

C4.5算法概述汇编.doc

ID:51673314

大小:658.00 KB

页数:12页

时间:2020-03-14

C4.5算法概述汇编.doc_第1页
C4.5算法概述汇编.doc_第2页
C4.5算法概述汇编.doc_第3页
C4.5算法概述汇编.doc_第4页
C4.5算法概述汇编.doc_第5页
资源描述:

《C4.5算法概述汇编.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、目录1决策树算法21.1具体应用场景和意义21.2现状分析32C4.5算法对ID3算法的改进43C4.5算法描述73.1C4.5算法原理73.2算法框架83.3C4.5算法伪代码94实例分析95C4.5算法的优势与不足125.1C4.5算法的优势125.2C4.5算法的不足:12参考文献12C4.5算法综述摘要最早的决策树算法是由Hunt等人于1966年提出的CLS。当前最有影响的决策树算法是Quinlan于1986年提出的ID3和1993年提出的C4.5。ID3只能处理离散型描述属性,它选择信息增益最大的属性划分训练样本,其目的是进行分枝时

2、系统的熵最小,从而提高算法的运算速度和精确度。ID3算法的主要缺陷是,用信息增益作为选择分枝属性的标准时,偏向于取值较多的属性,而在某些情况下,这类属性可能不会提供太多有价值的信息。C4.5是ID3算法的改进算法,不仅可以处理离散型描述属性,还能处理连续性描述属性。C4.5采用了信息增益比作为选择分枝属性的标准,弥补了ID3算法的不足。C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进,既适合于分类问题,又适合于回归问题,是目前应用最为广泛的归纳推理算法之一,在数据挖掘中收到研究者的广泛

3、关注。1决策树算法1.1具体应用场景和意义决策树(DecisionTree)是用于分类和预测的主要技术,它着眼于从一组无规则的事例推理出决策树表示形式的分类规则,采用自顶向下的递归方式,在决策树的内部节点进行属性值的比较,并根据不同属性判断从该节点向下分支,在决策树的叶节点得到结论。因此,从根节点到叶节点就对应着一条合理规则,整棵树就对应着一组表达式规则。基于决策树算法的一个最大的优点是它在学习过程中不需要使用者了解很多背景知识,只要训练事例能够用属性即结论的方式表达出来,就能使用该算法进行学习。决策树算法在很多方面都有应用,如决策树算法在医

4、学、制造和生产、金融分析、天文学、遥感影像分类和分子生物学、机器学习和知识发现等领域得到了广泛应用。决策树技术是一种对海量数据集进行分类的非常有效的方法。通过构造决策树模型,提取有价值的分类规则,帮助决策者做出准确的预测已经应用在很多领域。决策树算法是一种逼近离散函数值的方法。它是一种典型的分类方法,首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后对新数据进行分析。本质上决策树是通过一系列规则对数据进行分类的过程。决策树的典型算法有ID3、C4.5和CART等,基于决策树的分类模型有如下几个特点:(1)决策树方法结构简单,便于理解

5、;(2)决策树模型效率高,对训练集较大的情况较为适合;(3)决策树方法通常不需要接受训练集数据外的知识;(4)决策树方法具有较高的分类精确度。在决策树算法中,最常用的、最经典的是C4.5算法,它在决策树算法中的主要优点是:形象直观。该算法通过两个步骤来建立决策树:树的生成阶段和树的剪枝阶段。该算法主要基于信息论中的熵理论。熵在系统学上是表示事物的无序度,是系统混乱程度的统计量。C4.5基于生成的决策树中节点所含的信息熵最小的原理。它把信息增益率作为属性选择的度量标准,可以得出很容易理解的决策规则。1.2现状分析决策树技术是迄今为止发展最为成熟

6、的一种概念学习方法。它最早产生于二十世纪60年代,是由Hunt等人研究人类概念建模时建立的学习系统(CLS,ConceptLearningSystem),到70年代末,JRossQuinlan提出ID3算法,此算法的目的在于减少树的深度。但是忽略了叶子数目的研究。1975年和1984年,分别有人提出CHAID(Chi-squaredAutomaticInteractionDetection)和CART(ClassificationandRegressionTree,亦称BFOS)算法。1986年,J.C.Schlimmer提出ID4算法。19

7、88年,P.E.Utgoff提出ID5R算法。1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,C4.5算法在ID3算法的基础上进行了改进,对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大的改进,既适合于分类问题,又适合于回归问题,因而是目前应用最为广泛的归纳推理算法之一,在数据挖掘中收到研究者的广泛关注。数据挖掘需要选择复杂度低的算法和并行高效的策略,复杂度低的算法包括尽量把全局最优问题转化成局部最优的问题和近似线性或尽量低阶的多项式复杂度算法等,而高效并行的策略包括需要有高超的递归改为循环的技巧和尽量避

8、免使用全局信息等。现在研究者们还在继续研究改进的决策树算法,对于C4.5算法研究人员们从不同的角度对其进行了相应的改进,其中有针对C4.5算法处理连续型属性比较耗时

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。