欢迎来到天天文库
浏览记录
ID:53030766
大小:373.81 KB
页数:5页
时间:2020-04-14
《决策树C4.5算法的优化与应用-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、ComputerEngineeringandApplications计算机工程与应用决策树C4.5算法的优化与应用苗煜飞,张霄宏MIAOYufei,ZHANGXiaohong'1.河南理工大学计算机科学与技术学院,河南焦作4540002.中国科学院深圳先进技术研究院,广东深圳5180551.CollegeofComputerScienceandTechnology,HenanPolytechnicUniversity,Jiaozuo,Henan454000,China2.ShenzhenInstitutesofAdvancedTechnology,ChineseAcadem
2、yofSciences,Shenzhen,Guangdong518055,ChinaMIAOYufei,ZHANGXiaohong.ImprovementandapplicationofC4.5decisiontreealgorithm.ComputerEngi—neeringandApplications,2015,51(13):255-258.Abstract:C4.51Sthemostinfluentialdecisiontreeclassifiedalgorithm,butitstillhassomedeficiencies.Toimprovethedeficien
3、cyofconsumingmoretimeindiscretizingcontinuous-valuedattributesusingC4.5algorithm,anewsimplifiedalgorithmisproposedbyusingGiniindextoreplaceinformationentropyafterdiscretizingcontinuous—valuedattributesbasedonFayyadandIraniboundarytheory.Tosolvingtheoverfittingproblemindecisiontreemethod,th
4、eimprovedalgorithmisconsideredbyusingresubstitutionestimatebasedonOccam’Srazor.Applyingtheideaabovetofinancialloandata,experimentalresultsshowthattheexecutiontimeisreducedbyanaverageof8.74%,andthatthemodelcom—plexityisreducedbyanaverageof6.26%byusingtheimprovedC4.5algorithmunderthepremiseo
5、fguaranteeingtheaccuracy.Finally,theexperimentalresultsverifythevalidityofthisalgorithm.Keywords:C4.5algorithm;boundarytheorem;Giniindex;Occam’Srazor;resubstitutionestimate摘要:C4.5算法作为目前最具影响力的决策树分类算法,仍存一些不足之处。针对C4.5算法在对连续值属性离散化处理过程中比较耗时的缺点,基于Fayyad和Irani的边界定理,在连续属性离散化之后使用Gini指标代替信息熵对算法进行了化简
6、。针对决策树算法中的过度拟合问题,基于Occam’Srazor,采用再带入估计,对算法进行了改进。将上述思想应用于金融借贷数据,实验结果表明,改进的c4.5算法在保证准确率的前提下,执行时间平均降低8.74%,模型复杂度平均降低6.26%,表明了该算法的有效性。关键词:C4.5算法;边界定理;Gini指标;奥卡姆剃刀;再带入估计文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002.8331.1407.0469l引言决策树模型复杂度过大,还会出现过度拟合的情况,导分类问题是数据挖掘⋯领域研究和应用最为广泛的致决策树生成规则难于理解,算法效率降
7、低吲。问题之一。决策树算法因其分类速度快,精度高,生成文献[6]调整了连续阈值惩罚项,但是并没有解决的分类规则易于理解等优点而得到广泛应用。在当前决策树过度拟合问题。文献[7.8】通过对信息熵函数的的决策树算法中。】,C4.5算法州最为经典。化简提高了计算效率,但是对于连续属性的处理并不完利用C4.5算法对数据分类时,需要先通过对训练善,而且适用范围仅限于网络流量问题,局限性很大。集进行学习,建立决策树。在建树过程中,如果遇到连文献[9】在连续属性离散化方面进行了改进,但是并没续属性,C4.5算法要对数据集进行多次
此文档下载收益归作者所有