欢迎来到天天文库
浏览记录
ID:5420463
大小:189.38 KB
页数:3页
时间:2017-12-10
《一种改进的决策树分类属性选择方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、ComputerEngineeringandApplications计算机工程与应用2010,46(8)127一种改进的决策树分类属性选择方法王苗1,柴瑞敏21,CHAIRui-min2WANGMiao1.辽宁工程技术大学研究生院,辽宁葫芦岛1251052.辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛1251051.InstituteofGraduate,LiaoningTechnicalUniversity,Huludao,Liaoning125105,China2.SchoolofElectronicandInformati
2、onEngineering,LiaoningTechnicalUniversity,Huludao,Liaoning125105,ChinaE-mail:hsmobei16525@sina.comWANGMiao,CHAIRui-min.Improvedclassificationattributeselectionschemefordecisiontree.ComputerEngineeringandApplications,2010,46(8):127-129.Abstract:Analyzethebasicprinciple
3、sandimplementationstepsofID3andpointouttheadvantagesanddisadvantagesoftwoexistingimprovedclassificationalgorithms.WiththeshortcomingofincliningtochooseattributeshavingmanyvaluesforID3andthedeficienciesofclassificationtimeandclassificationaccuracyforexistingtwoimproved
4、classificationalgorithms,anewattributeselectionschemeisproposedandoptimizedwithmathematicalknowledge.ExperimentresultsshowthattheoptimizedschemecanovercometheabovedisadvantageofID3andhastheadvantagesofclassificationtimeandclassificationaccuracyovertheexistingtwoclassi
5、ficationalgorithms.Keywords:datamining;decisiontree;attributesselection摘要:分析了ID3算法的基本原理、实现步骤及现有两种改进分类算法的优缺点,针对ID3算法的取值偏向问题和现有两种改进算法在分类时间、分类精确度方面存在的不足,提出了一种新的分类属性选择方案,并利用数学知识对其进行了优化。经实验证明,优化后的方案克服了ID3算法的取值偏向问题,同时在分类时间及分类精确度方面优于ID3算法及现有两种改进的分类算法。关键词:数据挖掘;决策树;属性选择DOI:10.
6、3778/j.issn.1002-8331.2010.08.036文章编号:1002-8331(2010)08-0127-03文献标识码:A中图分类号:TP3991概述缩短了生成决策树的时间,但是作者没有考虑简化过程中带来近年来,数据挖掘技术在股票、房地产、医疗、教育等领域的误差;在文献[6]中,作者针对ID3算法的取值偏向问题,引入得到了广泛应用,为人们获取有价值的信息提供了有力手段。了“兴趣度”的概念,对ID3算法进行了有效的改进,但是没能决策树是数据挖掘技术中最常用的方法之一,与其他的分类方克服ID3算法存在的第(2)条缺点
7、。法相比,具有速度快、精度高以及生成模式简单等优点[1],在数文章对文献[6]提出的决策树算法进行了优化,有效缩短据挖掘领域中有着不可替代的作用和地位。ID3算法是最具有了该算法生成决策树的时间,同时弥补了优化过程中带来的影响力的一种决策树生成算法,于1986年由Quinlan提出[2-3]。误差,避免了文献[5]中出现的不足。除此之外,针对样本集中但是ID3算法存在以下不足[4]:某一确定属性值的记录集合为空的情况,给出了自己的修改(1)基于信息熵的计算方法偏向于特征值数目较多的属方案。性,而特征值较多的属性往往不是最优,最符合
8、实际的分类属性;2算法改进原理(2)数据集越大,算法的计算量增加得越快;ID3算法的基本原理[7]如下:设E=F×F×…×F是n维有穷12n(3)当训练集增加或者减少时,该算法生成的决策树随之向量空间。其中Fj是有穷离散符号集,E中的元素e=
此文档下载收益归作者所有