欢迎来到天天文库
浏览记录
ID:32528219
大小:7.89 MB
页数:53页
时间:2019-02-11
《基于粗糙集属性约简决策树分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于粗糙集属性约简的决策树分类算法的研究摘要科学技术的发展,尤其是人工智能技术的发展,使得数据挖掘在信息处理领域得到了空前的发展。数据挖掘是对大量的甚至是海量的数据进行处理、分析,得出对人们有用的结论或者决策建议,为电子购物,商业分析,灾难救助,医疗卫生等领域提供决策。数据挖掘中一个重要任务是对数据进行整理分类,分类算法多种多样,如神经网络、关联规则、决策树等。其中决策树分类是最常用的一种分类方法,因为其有着速度较快,准确性高,容易被人理解,可伸缩性强等优点。然而在具体的应用过程中,决策树分类方法也存在许多问题,例如生成
2、的树过于庞杂,而且生成树的效率比较低,因此,对决策树算法做进一步的优化和改进有着非常重要的意义。本文概述了数据挖掘,尤其是数据分类以及粗糙集理论相关知识,并对基于粗糙集理论的决策属性约简方法以及各种决策树分类方法做了分析比较。针对常用的属性约简算法以及决策树分类算法在剪枝过程中存在的不足,本文对如何优化决策树算法做了有意义的探索,主要做的研究工作如下:(1)利用粗糙集中属性依赖度的概念,对常用的基于属性重要度的约简算法进行改进,在保持约简能力不变的前提下降低了约简时间的复杂度,并通过实验验证了新算法的有效性。l(2)利用
3、Weka数据分析工具,找出了预剪枝算法中G,M参数的最佳组合,使得在决策树生成阶段,既能够控制决策树的规模,又能够保持较高的分类精度。同时对后剪枝算法EBP中样本错分率采用拉普拉斯矫正,提高了决策树的分类精度,最后使用标准的UCI测试数据集验证了新算法的有效性。(3)将改进后的算法应用于实际的医院管理分析系统中,利用真实的心脏病数据库挖掘出了预测心脏病的九条规则,为门诊医生以及医疗专家提供了有价值的参考信息。关键词:分类算法决策树属性约简剪枝算法STUDYoNDECISIONTREECLASSIFICATIoNALGOR
4、ITHMBASEDONROUGHSETATTRIBUTEREDUCTIoNABSTRACTThedevelopmentofcomputertechnology,especiallythedevelopmentofartificialintelligencemakesdataminingallunprecedenteddevelopmentintheinformationprocessingareas.Themaintaskofthedataminingisgettingusefulknowledgeandinformat
5、ionfrommassofdatathroughdataprocessingandanalysis.Soastoprovidethedecisionintheapplicationfields,includingelectronicshopping,businessanalysis,disasterrelief,healthcareetc.Classificationisoneofthemostimportanttasksofdatamining,SOtherearemanykindsofclassificational
6、gorithms,suchasneuralnetworks,associationrulesanddecisiontrees.Thedecisiontreealgorithmisthemostcommonlyusedclassificationalgorithm,ithasfastclassificationspeed,highaccuracyandgoodscalability.Inthespecificapplicationprocess,themethodofdecisiontreeclassificational
7、sohasmanyproblems,suchasthelargesizeofresultingtreeandlowefficiency.Thereforeoptimizationandimprovementfordecisiontreealgorithmhaveaverysignificantmeaning.This13a19er19rovidesanoverviewofdatamining,especiallydata"ll●^一●‘’classificationandthebasicsofroughsettheory
8、.Inaddition,acomparativeanalysisofattributesreductionmethodsbasedonroughsettheory,aswellasavarietyofdecisiontreeclassificationareproposed.Fortheshortcomingsofa
此文档下载收益归作者所有