决策树C4.5算法的优化与应用-论文.pdf

决策树C4.5算法的优化与应用-论文.pdf

ID:53030766

大小:373.81 KB

页数:5页

时间:2020-04-14

决策树C4.5算法的优化与应用-论文.pdf_第1页
决策树C4.5算法的优化与应用-论文.pdf_第2页
决策树C4.5算法的优化与应用-论文.pdf_第3页
决策树C4.5算法的优化与应用-论文.pdf_第4页
决策树C4.5算法的优化与应用-论文.pdf_第5页
资源描述:

《决策树C4.5算法的优化与应用-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ComputerEngineeringandApplications计算机工程与应用决策树C4.5算法的优化与应用苗煜飞,张霄宏MIAOYufei,ZHANGXiaohong'1.河南理工大学计算机科学与技术学院,河南焦作4540002.中国科学院深圳先进技术研究院,广东深圳5180551.CollegeofComputerScienceandTechnology,HenanPolytechnicUniversity,Jiaozuo,Henan454000,China2.ShenzhenInstitutesofAdvancedTechnology,ChineseAcadem

2、yofSciences,Shenzhen,Guangdong518055,ChinaMIAOYufei,ZHANGXiaohong.ImprovementandapplicationofC4.5decisiontreealgorithm.ComputerEngi—neeringandApplications,2015,51(13):255-258.Abstract:C4.51Sthemostinfluentialdecisiontreeclassifiedalgorithm,butitstillhassomedeficiencies.Toimprovethedeficien

3、cyofconsumingmoretimeindiscretizingcontinuous-valuedattributesusingC4.5algorithm,anewsimplifiedalgorithmisproposedbyusingGiniindextoreplaceinformationentropyafterdiscretizingcontinuous—valuedattributesbasedonFayyadandIraniboundarytheory.Tosolvingtheoverfittingproblemindecisiontreemethod,th

4、eimprovedalgorithmisconsideredbyusingresubstitutionestimatebasedonOccam’Srazor.Applyingtheideaabovetofinancialloandata,experimentalresultsshowthattheexecutiontimeisreducedbyanaverageof8.74%,andthatthemodelcom—plexityisreducedbyanaverageof6.26%byusingtheimprovedC4.5algorithmunderthepremiseo

5、fguaranteeingtheaccuracy.Finally,theexperimentalresultsverifythevalidityofthisalgorithm.Keywords:C4.5algorithm;boundarytheorem;Giniindex;Occam’Srazor;resubstitutionestimate摘要:C4.5算法作为目前最具影响力的决策树分类算法,仍存一些不足之处。针对C4.5算法在对连续值属性离散化处理过程中比较耗时的缺点,基于Fayyad和Irani的边界定理,在连续属性离散化之后使用Gini指标代替信息熵对算法进行了化简

6、。针对决策树算法中的过度拟合问题,基于Occam’Srazor,采用再带入估计,对算法进行了改进。将上述思想应用于金融借贷数据,实验结果表明,改进的c4.5算法在保证准确率的前提下,执行时间平均降低8.74%,模型复杂度平均降低6.26%,表明了该算法的有效性。关键词:C4.5算法;边界定理;Gini指标;奥卡姆剃刀;再带入估计文献标志码:A中图分类号:TP391.4doi:10.3778/j.issn.1002.8331.1407.0469l引言决策树模型复杂度过大,还会出现过度拟合的情况,导分类问题是数据挖掘⋯领域研究和应用最为广泛的致决策树生成规则难于理解,算法效率降

7、低吲。问题之一。决策树算法因其分类速度快,精度高,生成文献[6]调整了连续阈值惩罚项,但是并没有解决的分类规则易于理解等优点而得到广泛应用。在当前决策树过度拟合问题。文献[7.8】通过对信息熵函数的的决策树算法中。】,C4.5算法州最为经典。化简提高了计算效率,但是对于连续属性的处理并不完利用C4.5算法对数据分类时,需要先通过对训练善,而且适用范围仅限于网络流量问题,局限性很大。集进行学习,建立决策树。在建树过程中,如果遇到连文献[9】在连续属性离散化方面进行了改进,但是并没续属性,C4.5算法要对数据集进行多次

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。