欢迎来到天天文库
浏览记录
ID:32029452
大小:2.29 MB
页数:50页
时间:2019-01-30
《基于粗糙集决策树分类算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要决策树是分类应用中采用的最广泛的模型之一。与其它分类方法相比,决策树无需花费大量的时间和进行上千次的迭代来训练模型,适用于大规模的数据集,除了训练数据中的信息之外不再需要其它额外的信息,表现了很好的分类精确度。其核心问题是测试属性的选择方法,以及对决策树的剪枝。连续属性的离散化和条件属性约简也是扩展决策树算法应用范围的关键技术。本文基于粗糙集理论对上述问题进行了研究,主要内容如下:(1)综述了决策树和粗糙集的基本理论,分析了经典的决策树算法的构造方法。(2)结合粗糙集中决策表的概念,给出了一种参照性的连续属性离散化算法;针对该算法不适用于大规模数据集的特点,利用
2、系统不相容性水平和信息熵的概念对该算法进行了改进,提出了基于信息熵的连续属性离散化算法,并用实例对上述算法进行了分析和比较。(3)对于离散化后的决策表,利用粗糙集理论中条件属性相对于决策属性的核以及条件属性的区分能力的概念,同时考虑到将要建立的决策树的规模问题,提出了一种基于分辨矩阵的启发式属性约简算法。(4)由分辨矩阵的概念可知,在分辨矩阵中出现频率大的属性可一次性区分较多的样本实例,由此提出了基于分辨矩阵的单变量决策树生成算法(STDA)和混合变量决策树生成算法(HTDA),并通过实验分析将上述两种算法与经典的ID3算法进行了对比,通过验证可知这两种算法生成的决
3、策树规模小,决策规则简单有效。关键词:决策树;粗糙集;离散化;属性约简;分辨矩阵IAbstractDecisiontreeisthemostuniversalmodelsadoptedinapplicationofclassification.Comparedwithotherclassificationmethod,itdoesn’tneedalotoftimeandhundredsofiterationstotrainmodelsbutsuitaableforthelargesetofdata.Moreover,theclassificationaccuracy
4、ofdecisiontreeisbetterthanothertechniques’,andthealgorithmneedsnootherinformationbutthetrainingdatainformation.Thecoreissueofdecisiontreealgorithmisthestrategyinchoosingtestattributeandpruningtothedecisiontree.Discretizationthecontinuousattributesanddimensionreductiontothehighdimension
5、dataarecriticaltechniquestoexternthedecisiontreealgorithm’sapplicationdomain.Thisarticlehasconductedtheresearchbasedontheroughsettheorytotheabovequestion,theprimarycoverageisasfollows:(1)Summarizedthedecisiontreeandtheroughsettheory,hasanalyzedtheclassicdecisiontreealgorithmstructureme
6、thod.(2)Combinedthedecisiontableoftheroughset,hasgivenonekindofreferencecontinualattributediscretizationalgorithm.Inviewofthisalgorithmisnotsuitabletothelarge-scaledataset,hasmadetheimprovementusingtheincompatibilitylevelandtheinformationentropy'sconcepttothisalgorithm,proposedbasedont
7、heinformationentropy'scontinualattributediscretizationalgorithm,andhascarriedonanalysisandcomparisonwithexampletotheabovealgorithm.(3)Foronlyhavingdiscreteattributes,weproposedanewheuristicconditionattriubtesdeductionalgorithmbasedondiscernibilitymatrix,whichtakesintoaccountthecoreof
此文档下载收益归作者所有