一种改进的决策树分类属性选择方法

一种改进的决策树分类属性选择方法

ID:5420463

大小:189.38 KB

页数:3页

时间:2017-12-10

一种改进的决策树分类属性选择方法_第1页
一种改进的决策树分类属性选择方法_第2页
一种改进的决策树分类属性选择方法_第3页
资源描述:

《一种改进的决策树分类属性选择方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ComputerEngineeringandApplications计算机工程与应用2010,46(8)127一种改进的决策树分类属性选择方法王苗1,柴瑞敏21,CHAIRui-min2WANGMiao1.辽宁工程技术大学研究生院,辽宁葫芦岛1251052.辽宁工程技术大学电子与信息工程学院,辽宁葫芦岛1251051.InstituteofGraduate,LiaoningTechnicalUniversity,Huludao,Liaoning125105,China2.SchoolofElectronicandInformati

2、onEngineering,LiaoningTechnicalUniversity,Huludao,Liaoning125105,ChinaE-mail:hsmobei16525@sina.comWANGMiao,CHAIRui-min.Improvedclassificationattributeselectionschemefordecisiontree.ComputerEngineeringandApplications,2010,46(8):127-129.Abstract:Analyzethebasicprinciple

3、sandimplementationstepsofID3andpointouttheadvantagesanddisadvantagesoftwoexistingimprovedclassificationalgorithms.WiththeshortcomingofincliningtochooseattributeshavingmanyvaluesforID3andthedeficienciesofclassificationtimeandclassificationaccuracyforexistingtwoimproved

4、classificationalgorithms,anewattributeselectionschemeisproposedandoptimizedwithmathematicalknowledge.ExperimentresultsshowthattheoptimizedschemecanovercometheabovedisadvantageofID3andhastheadvantagesofclassificationtimeandclassificationaccuracyovertheexistingtwoclassi

5、ficationalgorithms.Keywords:datamining;decisiontree;attributesselection摘要:分析了ID3算法的基本原理、实现步骤及现有两种改进分类算法的优缺点,针对ID3算法的取值偏向问题和现有两种改进算法在分类时间、分类精确度方面存在的不足,提出了一种新的分类属性选择方案,并利用数学知识对其进行了优化。经实验证明,优化后的方案克服了ID3算法的取值偏向问题,同时在分类时间及分类精确度方面优于ID3算法及现有两种改进的分类算法。关键词:数据挖掘;决策树;属性选择DOI:10.

6、3778/j.issn.1002-8331.2010.08.036文章编号:1002-8331(2010)08-0127-03文献标识码:A中图分类号:TP3991概述缩短了生成决策树的时间,但是作者没有考虑简化过程中带来近年来,数据挖掘技术在股票、房地产、医疗、教育等领域的误差;在文献[6]中,作者针对ID3算法的取值偏向问题,引入得到了广泛应用,为人们获取有价值的信息提供了有力手段。了“兴趣度”的概念,对ID3算法进行了有效的改进,但是没能决策树是数据挖掘技术中最常用的方法之一,与其他的分类方克服ID3算法存在的第(2)条缺点

7、。法相比,具有速度快、精度高以及生成模式简单等优点[1],在数文章对文献[6]提出的决策树算法进行了优化,有效缩短据挖掘领域中有着不可替代的作用和地位。ID3算法是最具有了该算法生成决策树的时间,同时弥补了优化过程中带来的影响力的一种决策树生成算法,于1986年由Quinlan提出[2-3]。误差,避免了文献[5]中出现的不足。除此之外,针对样本集中但是ID3算法存在以下不足[4]:某一确定属性值的记录集合为空的情况,给出了自己的修改(1)基于信息熵的计算方法偏向于特征值数目较多的属方案。性,而特征值较多的属性往往不是最优,最符合

8、实际的分类属性;2算法改进原理(2)数据集越大,算法的计算量增加得越快;ID3算法的基本原理[7]如下:设E=F×F×…×F是n维有穷12n(3)当训练集增加或者减少时,该算法生成的决策树随之向量空间。其中Fj是有穷离散符号集,E中的元素e=

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。