决策树c4.5连续属性分割阈值算法改进及其应用

决策树c4.5连续属性分割阈值算法改进及其应用

ID:9216545

大小:407.63 KB

页数:6页

时间:2018-04-23

决策树c4.5连续属性分割阈值算法改进及其应用_第1页
决策树c4.5连续属性分割阈值算法改进及其应用_第2页
决策树c4.5连续属性分割阈值算法改进及其应用_第3页
决策树c4.5连续属性分割阈值算法改进及其应用_第4页
决策树c4.5连续属性分割阈值算法改进及其应用_第5页
资源描述:

《决策树c4.5连续属性分割阈值算法改进及其应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、万方数据第42卷第12期2011年12月中南大学学报(自然科学版)JournalofCentralSouthUniversity(ScienceandTechnology)、,01.42No.12Dec.201l决策树C4.5连续属性分割阈值算法改进及其应用姚亚夫,邢留涛(中南大学机电工程学院,湖南长沙,410083)摘要:结合Fayyad边界点原理提出一种新的连续值属性最佳分割阈值的选择算法。根据Fayyad连续值属性的最佳分割点总在边界点处的原理,只在连续属性分界点处的少数几个分割点中选择最佳分割阈值。构造并训练了改进C4.5分类器,将其应用于视频序列中的人车目标识别。实

2、验结果表明:改进C4.5算法的计算量减少近20%,大大提高了决策树的生成效率,分类准确率也略有提高。关键词:决策树C4.5算法;连续属性:分割阈值;信息增益率中图分类号:TP391.4文献标志码:A文章编号:1672—7207(2011)12-3772-05ImprovementofC4.5decisiontreecontinuousattributessegmentationthresholdalgorithmanditsapplicationYAOYa-fu,XINGLiu-tao(SchoolofMechanicalandElectricalEngineering,Ce

3、ntralSouthUniversity,Changsha410083,China)Abstract:Inordertoreducethecomputationalcomplexityofthisalgorithm,combinedwiththeFayyadboundarypointprinciple,anewalgorithm,whichselectsthebestsegmentationthresholdofthecontinuousattributevalues,wasproposed,Accordingtotheprinciplethattherealwaysexis

4、ttheboundarypointsattheoptimalsegmentationpo缸ofthecontinuousattributevalues,theimprovedalgorithmonlyselectedthebestsegmentationthresholdfromthefewpointsofboundary.TheimprovedCA.5classifierwasestablishedandtrained,andthenitWasappliedintherecognitionofpoopleandvehicletargetsinvideosequences.T

5、heresultsshowthatthecomputationoftheimprovedC4.5algorithmisreducedbynearly20%andalsogreatlyimprovestheefficiencyofgeneratingadecisiontree,andatthesametime,theclassificationaccuracyisslightlyincreased.Keywords:decisiontreeCA.5algorithm;continuousattribute;segmentationthreshold;informationgai

6、nratio分类问题是数据挖掘领域中研究和应用最为广泛的技术之一。近年来。分类问题在许多行业和领域都有广泛的应用【l】,如何更精确、更有效地分类一直是广大科研工作者的目标。决策树以其预测准确率高、稳定性好、直观易懂等特点【2-41,得到广泛的应用。目前,构造决策树的算法比较多【润,用不同的算法可以构造出不同的决策树,其性能也不尽相同,决策树的构造通常包含2个重要步骤【7】:生成决策树和决策树的剪枝。每个步骤都有不同的方法,相应地就有各种不同的决策树生成和剪枝算法,最早的决策树算法是由Hunt等【8】于1966年提出的CLS(conceptlearningsystem)。ID3

7、算法【9】和C4.5算法【lOl是目前最具影响的决策树算法,已广泛应用于数据分类领域。C4.5算法是在ID3算法的基础上改进过来的,不仅可以处理离散型描述属性,还可以处理连续性属性。C4.5算法采用信息增益率作为选择分枝属性的标准,弥补了ID3算法在使用信息增益选择分枝属性时偏向于取值较多的属性的缺陷,但C4.5算法也有一些缺陷【ll】。本文作收稿日期:2010-12-09:修回日期:201l-03_28基金项目:国家高技术研究发展计划(“%3”计划X2009AAllZ206)通信作者:姚亚夫(1964

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。