C4.5算法的两点改进.pdf

C4.5算法的两点改进.pdf

ID:57306503

大小:129.70 KB

页数:4页

时间:2020-08-11

C4.5算法的两点改进.pdf_第1页
C4.5算法的两点改进.pdf_第2页
C4.5算法的两点改进.pdf_第3页
C4.5算法的两点改进.pdf_第4页
资源描述:

《C4.5算法的两点改进.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第20卷第4期江苏工业学院学报Vol.20No.42008年12月JOURNALOFJIANGSUPOLYTECHNICUNIVERSITYDec.2008文章编号:1673-9620(2008)04-0056-04*C4.5算法的两点改进12乔增伟,孙卫祥(1.江苏工业学院信息科学与工程学院,江苏常州213164;2.上海交通大学振动、冲击、噪声国家重点实验室,上海200240)摘要:C4.5作为一种重要的决策树算法尚存一些不足之处。针对C4.5对于连续属性最优分割阈值选择比较耗时的缺点,基于F

2、ayyad边界点判定定理,提出一种改进最优阈值选择方法。针对C4.5不具备增量式学习能力的缺点,在改造树结构体的基础上,提出C4.5增量学习的改进方法。关键词:决策树;C4.5;最优阈值;增量式学习中图分类号:TP301.6文献标识码:ATwoImprovementstoC4.5Algorithm12QIAOZeng-wei,SUNWei-xiang(1.SchoolofInformationScienceandEngineering,JiangsuPolytechnicUniversity,Ch

3、angzhou213164,China;2.StateKeyLaboratoryofVibration,Shock&Noise,ShanghaiJiaotongUniversity,Shanghai200240,China)Abstract:Asanimportantdecisiontreealgorithm,C4.5stillhastwodisadvantages.Oneisthatitisverytime-consumingtofindtheoptimalthresholdofcontinuo

4、usattribute.TheotheristhatC4.5hasnoabili-tyofincrementallearning.BasedontheboundarypointtheoremgivenbyFayyad,animprovementmethodofselectingtheoptimalthresholdisproposedtoovercomethefirstdisadvantage.Also,afterthemodifica-tionoftreestructureofC4.5,anin

5、crementalC4.5algorithmisputforwardtosolvethesecondproblem.Keywords:decisiontree;C4.5;optimalthreshold;incrementallearning决策树的先驱是概念学习系统(Concept提出了C4.5算法。LearningSystem,CLS),它由Hunt等人提出,该算法使用一组训练实例,构造出等价于析取规则1C4.5算法简介形式的决策树表示概念描述,然后运用这些概念对C4.5算法是ID3算法的改进

6、,增加了对连续[3]新的实例进行分类。1986年,Quinlan修改了CLS型属性、属性值空缺情况的处理。算法主体由决[1]并提出的ID3算法,ID3以树的形式表示已经获策树生成算法C4.5tree、剪枝算法C4.5pruning、取的知识,树的内部节点表示测试属性,叶节点是规则生成算法C4.5rules3部分组成。C4.5tree算类标识,从根到叶形成一条分类规则。1993年,法依据信息熵理论,选择当前样本集中具有最大信Quinlan在文献[2]中对ID3算法进行了完善,息增益率的属性作为测试属

7、性不断对样本集进行划*收稿日期:2008-04-11作者简介:乔增伟(1978-),男,河南驻马店人,硕士,讲师,研究方向:数据挖掘、软件工程。乔增伟等.C4.5算法的两点改进·57·分,最终构造出一棵完全决策树。对于连续型的属的T,总是处于实例序列中两个相邻异类实例之性先进行离散化,即把连续型属性的值划分成不同间。的区间,便于处理。C4.5pruning采用基于错误的2.3改进分割阈值选择方法剪枝方法对完全决策树进行修剪,得到简化决策树。C4.5rules把完全决策树转化成一组if.then由F

8、ayyad边界点判定定理可知,无需检查每规则集并进行化简。经剪枝或规则生成过程得到的一个阈值点,只要检查相邻不同类别的边界点即[4]简化决策树和规则集都可用于分类。可。为了保持与C4.5的一致性,这里边界点选为C4.5作为ID3的升级版本,虽然已经得到很相邻不同类别的属性值中较小的一个。例如,当排[5]好的应用,但是还存在一些不足。其一是,对连序后的实例属性值为{v1,v2,…,v10},其中前续属性离散化时,C4.5算法计算每个分割点的信3个属于类别C1,中间4个属于类别C2,最

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。