决策树算法的比较与应用研究

决策树算法的比较与应用研究

ID:46389138

大小:90.00 KB

页数:10页

时间:2019-11-23

决策树算法的比较与应用研究_第1页
决策树算法的比较与应用研究_第2页
决策树算法的比较与应用研究_第3页
决策树算法的比较与应用研究_第4页
决策树算法的比较与应用研究_第5页
资源描述:

《决策树算法的比较与应用研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、决策树算法的比较与应用研究张海燕刘岩马丽萌苑津莎巨汉基魏彤珈华北电力大学国网冀北电力有限公司电力科学研究院(华北电力科学研究院有限责任公司)摘要:数据挖掘屮一项重要的任务是对数据进行分类,而决策树是分类算法屮一个最主要而且应用最广泛的算法分支。文章叙述了决策树的工作原理和慕本概况,介绍了儿种常用的决策树算法,并通过对5种公开数据集的分类结果进行比较,验证了这些算法的优劣,最后将随机森林算法应用到电力用户信用评价中,为进一步研究提供了思路。关键词:数据挖掘;分类算法;决策树;作者简介:张海燕(1992—),

2、女,2015级华北电力科学研究院有限责任公司联合培养硕士研究牛,主要从事计量设备异常诊断方面的研究。收稿日期:2017-05-26ComparisonandApplicationofDecisionTreeAlgorithmZhangHaiyanLiuYanMaLimengYuanJinshaJuHanjiWeiTongjiaNorthChirmElectriePowerUniversity;StateGridJibeiElectriePowerCo.Ltd・ResearchInstitute,North

3、ChinaElectriePowerResearchInstituteCo.Ltd・;Abstract:Animportanttaskindataminingistoclassifythedata,andthedecisiontreeisoneofthemostimportantandwidelyusedalgorithmbranchesintheclassificationalgorithm.Thispaperdescribestheworkingprincipieandbasicsituationof

4、thedecisiontree,andintroducesseveralcommonlyuseddecisiontreealgorithms,andcomparestheclassifiedtionresultsoffivepublicdatasetstoverifytheadvantagesanddisadvantagesofthesealgorithms.FinallytheRandomForestalgorithmisappliedtothecreditevaluationoftheelectric

5、ityuser,whichprovidestheideaforfurthcrresearch.Keyword:datamining;classificationalgorithm;decisiontree;Received:2017-05-26o引言信息时代带给我们的是海量的数据,发现数据之间存在的一些潜在的联系和规则、最大程度地挖掘数据的科学价值和社会价值是目前亟待解决的问题,因此数据挖掘技术应运而牛。数据挖掘的任务是通过对海量数据进行分析,获得有巨大价值的产品和服务[2]。随着国网公司智能电网建设的推

6、进,用电信息系统不断健全,公司积累了海量、多样的数据资源,提升数据处理的性能、挖掘数据价值、将数据转变为资产等工作亟待开展。决策树是一种比较常用的数据挖掘方法RL具有可读性强、便于理解、分类速度快等特点;另外,不同于其他技术,决策树的数据准备阶段很简单,所需的数据量并不大,并且决策树可以同时处理数据型和常规型属性,不要求数据属性的统一。总之,决策树作为一种简单高效并且具有强解释性的模型,受到了越来越多的关注血。1基本原理决策树顾名思义就是做决策的节点间的组织方式像一棵树,该树由决策节点、分支和叶子节点组成

7、。每个决策节点表示一个待分类的数据类别或属性,每个叶子节点表示一种结果臣1。整个决策的过程从根决策节点开始,从上到下,依次判断,直到给出分类结果。1.1基本步骤决策树的搭建过程是一个不断迭代的过程,其基木步骤如图lo图1决策树算法基本步骤下载原图决策树的构造方法其实就是每次选择一个好的特征作为当前节点的分类条件。若用某个特征作为分割点可以把所有数据进行分类,而且每一类都很“纯”,也就是同一类的记录较多,则该特征称为好的分类特征。构建决策树采用贪心算法回,只考虑当前纯度差最大的情况作为分割点。量化纯度的方法

8、一般有3种,分别为Gini不纯度、爛和错误率。1.2过拟合过拟合是一些智能算法中比较普遍的问题。指的是该决策树对训练数据可以得到很低的错误率,但是运用到测试数据上分类效果却并不理想。造成过拟合的因素有以下几点。(1)训练数据中存在的噪咅数据的干扰过大导致某些节点把噪咅数据作为分割点。(2)训练数据数量过少或者没有包含所有具有代表性的数据,导致某一类数据无法很好地匹配。(3)没有适时停止树的增长,当每个子节点下的数据都属于同一类

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。