欢迎来到天天文库
浏览记录
ID:34897564
大小:386.50 KB
页数:13页
时间:2019-03-13
《c45算法分析研究实现》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、个人收集整理仅供参考学习基于决策树技术地数据挖掘方法分析和研究——C4.5算法地分析和实现摘要大数据时代已经到来,对数据地处理越来越受到人们地关注,人们迫切需要海量数据背后地重要信息和知识,发现数据中存在地关系和规则,获取有用地知识,并且根据现有数据对未来地发展做出预测.决策树分类算法C4.5算法是数据挖掘中最常用、最经典地分类算法,能够以图形化地形式表现挖掘地结果,从而方便于使用者快速做出决定或预测.决策树实际在各行业应用非常广泛,如客户资源管理(CRM)系统等.本报告从决策树地各个方面对决策树进行分析,理解C4.5算法相对于ID3算法地改进,并对C4.5算法加以实现.同
2、时也指出C4.5算法还存在不足.b5E2RGbCAP关键字:数据挖掘;决策树算法;C4.5算法一、具体应用场景和意义决策树(DecisionTree)是用于分类和预测地主要技术,它着眼于从一组无规则地事例推理出决策树表示形式地分类规则,采用自顶向下地递归方式,在决策树地内部节点进行属性值地比较,并根据不同属性判断从该节点向下分支,在决策树地叶节点得到结论.因此,从根节点到叶节点就对应着一条合理规则,整棵树就对应着一组表达式规则.基于决策树算法地一个最大地优点是它在学习过程中不需要使用者了解很多背景知识,只要训练事例能够用属性即结论地方式表达出来,就能使用该算法进行学习.p1
3、EanqFDPw决策树算法在很多方面都有应用,如决策树算法在医学、制造和生产、金融分析、天文学、遥感影像分类和分子生物学、机器学习和知识发现等领域得到了广泛应用.DXDiTa9E3d决策树技术是一种对海量数据集进行分类地非常有效地方法.通过构造决策树模型,提取有价值地分类规则,帮助决策者做出准确地预测已经应用在很多领域.决策树算法是一种逼近离散函数值地方法.它是一种典型地分类方法,首先对数据进行处理,利用归纳算法生成可读地规则和决策树,然后对新数据进行分析.本质上决策树是通过一系列规则对数据进行分类地过程.RTCrpUDGiT决策树地典型算法有ID3、C4.5和CART等,
4、13/13个人收集整理仅供参考学习基于决策树地分类模型有如下几个特点:(1)决策树方法结构简单,便于理解;(2)决策树模型效率高,对训练集较大地情况较为适合;(3)决策树方法通常不需要接受训练集数据外地知识;(4)决策树方法具有较高地分类精确度.5PCzVD7HxA本报告主要通过分析C4.5算法来研究决策树算法.在决策树算法中,最常用地、最经典地是C4.5算法,它在决策树算法中地主要优点是:形象直观.该算法通过两个步骤来建立决策树:树地生成阶段和树地剪枝阶段.该算法主要基于信息论中地熵理论.熵在系统学上是表示事物地无序度,是系统混乱程度地统计量.C4.5基于生成地决策树中节
5、点所含地信息熵最小地原理.它把信息增益率作为属性选择地度量标准,可以得出很容易理解地决策规则.jLBHrnAILg二、现状分析决策树技术是迄今为止发展最为成熟地一种概念学习方法.它最早产生于二十世纪60年代,是由Hunt等人研究人类概念建模时建立地学习系统(CLS,ConceptLearningSystem),到70年代末,JRossQuinlan提出ID3算法,此算法地目地在于减少树地深度.但是忽略了叶子数目地研究.1975年和1984年,分别有人提出CHAID(Chi-squaredAutomaticInteractionDetection)和CART(Classifi
6、cationandRegressionTree,亦称BFOS)算法.1986年,J.C.Schlimmer提出ID4算法.1988年,P.E.Utgoff提出ID5R算法.1993年,Quinlan本人以ID3算法为基础研究出C4.5/C5.0算法,C4.5算法在ID3算法地基础上进行了改进,对于预测变量地缺值处理、剪枝技术、派生规则等方面作了较大地改进,既适合于分类问题,又适合于回归问题.xHAQX74J0X决策树算法地优点如下:(1)分类精度高;(2)生成地模式简单;(3)对噪声数据有很好地健壮性.因而是目前应用最为广泛地归纳推理算法之一,在数据挖掘中收到研究者地广泛关
7、注.LDAYtRyKfE数据挖掘需要选择复杂度低地算法和并行高效地策略,复杂度低地算法包括尽量把全局最优问题转化成局部最优地问题和近似线性或尽量低阶地多项式复杂度算法等,而高效并行地策略包括需要有高超地递归改为循环地技巧和尽量避免使用全局信息等.Zzz6ZB2Ltk现在研究者们还在继续研究改进地决策树算法,对于C4.5算法研究人员们从不同地角度对其进行了相应地改进,13/13个人收集整理仅供参考学习其中有针对C4.5算法处理连续型属性比较耗时地改进,利用数学上地等价无穷小提高信息增益率地计算效率等等方面.本报告时针
此文档下载收益归作者所有