欢迎来到天天文库
浏览记录
ID:9216545
大小:407.63 KB
页数:6页
时间:2018-04-23
《决策树c4.5连续属性分割阈值算法改进及其应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、万方数据第42卷第12期2011年12月中南大学学报(自然科学版)JournalofCentralSouthUniversity(ScienceandTechnology)、,01.42No.12Dec.201l决策树C4.5连续属性分割阈值算法改进及其应用姚亚夫,邢留涛(中南大学机电工程学院,湖南长沙,410083)摘要:结合Fayyad边界点原理提出一种新的连续值属性最佳分割阈值的选择算法。根据Fayyad连续值属性的最佳分割点总在边界点处的原理,只在连续属性分界点处的少数几个分割点中选择最佳分割阈值。构造并训练了改进C4.5分类器,将其应用于视频序列中的人车目标识别。实
2、验结果表明:改进C4.5算法的计算量减少近20%,大大提高了决策树的生成效率,分类准确率也略有提高。关键词:决策树C4.5算法;连续属性:分割阈值;信息增益率中图分类号:TP391.4文献标志码:A文章编号:1672—7207(2011)12-3772-05ImprovementofC4.5decisiontreecontinuousattributessegmentationthresholdalgorithmanditsapplicationYAOYa-fu,XINGLiu-tao(SchoolofMechanicalandElectricalEngineering,Ce
3、ntralSouthUniversity,Changsha410083,China)Abstract:Inordertoreducethecomputationalcomplexityofthisalgorithm,combinedwiththeFayyadboundarypointprinciple,anewalgorithm,whichselectsthebestsegmentationthresholdofthecontinuousattributevalues,wasproposed,Accordingtotheprinciplethattherealwaysexis
4、ttheboundarypointsattheoptimalsegmentationpo缸ofthecontinuousattributevalues,theimprovedalgorithmonlyselectedthebestsegmentationthresholdfromthefewpointsofboundary.TheimprovedCA.5classifierwasestablishedandtrained,andthenitWasappliedintherecognitionofpoopleandvehicletargetsinvideosequences.T
5、heresultsshowthatthecomputationoftheimprovedC4.5algorithmisreducedbynearly20%andalsogreatlyimprovestheefficiencyofgeneratingadecisiontree,andatthesametime,theclassificationaccuracyisslightlyincreased.Keywords:decisiontreeCA.5algorithm;continuousattribute;segmentationthreshold;informationgai
6、nratio分类问题是数据挖掘领域中研究和应用最为广泛的技术之一。近年来。分类问题在许多行业和领域都有广泛的应用【l】,如何更精确、更有效地分类一直是广大科研工作者的目标。决策树以其预测准确率高、稳定性好、直观易懂等特点【2-41,得到广泛的应用。目前,构造决策树的算法比较多【润,用不同的算法可以构造出不同的决策树,其性能也不尽相同,决策树的构造通常包含2个重要步骤【7】:生成决策树和决策树的剪枝。每个步骤都有不同的方法,相应地就有各种不同的决策树生成和剪枝算法,最早的决策树算法是由Hunt等【8】于1966年提出的CLS(conceptlearningsystem)。ID3
7、算法【9】和C4.5算法【lOl是目前最具影响的决策树算法,已广泛应用于数据分类领域。C4.5算法是在ID3算法的基础上改进过来的,不仅可以处理离散型描述属性,还可以处理连续性属性。C4.5算法采用信息增益率作为选择分枝属性的标准,弥补了ID3算法在使用信息增益选择分枝属性时偏向于取值较多的属性的缺陷,但C4.5算法也有一些缺陷【ll】。本文作收稿日期:2010-12-09:修回日期:201l-03_28基金项目:国家高技术研究发展计划(“%3”计划X2009AAllZ206)通信作者:姚亚夫(1964
此文档下载收益归作者所有