欢迎来到天天文库
浏览记录
ID:32239586
大小:2.22 MB
页数:57页
时间:2019-02-02
《数据挖掘中属性约简与分类算法地研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、摘要数据挖掘是指从数据库中抽取隐含的、具有潜在使用价值信息的过程,是一种新型的数据分析技术,己经被广泛应用于金融、保险、政府、教育、运输以及国防等领域。粗糙集理论是波兰数学家Z.Pawlak于1982年提出的一种新的处理模糊和不确定性知识的数学工具。本文结合粗糙集理论着重探讨了数据挖掘中属性约简与分类这两个核心问题。以信息系统为研究对象,通过研究完备信息系统下经典粗糙集模型的属性约简算法理论和方法,并指出了其中存在的不足,提出了一种基于粗糙集的改进的属性约简算法;对传统的决策树算法通过实例分析,指出算法中存在的问题,
2、提出了一种传统的决策树算法的改进算法——基于属性加权平均重要性的决策树构造算法WMAS。本文主要工作及创新点如下:1.在对各种属性约简启发式算法中属性重要性研究基础上,提出了属性加权平均重要性的概念,该重要性综合考虑了属性对决策分类的重要性和在属性中的重要性。2.如何高效的实现粗糙集的属性约简,一直是粗糙集理论研究的重要内容。理论已经证明,搜索粗糙集属性约简的最优解是一个NP问题,因此,目前的研究已集中于如何求得属性约简的次优解上。本文先讨论了经典粗糙集的约简算法,在此基础上提出了一种基于粗糙集的属性约简改进算法,该
3、算法在属性约简中不仅考虑到属性的重要性而且考虑了属性的信息量,能够得到信息系统的一个约简,且不需要求核,减少计算量,提高计算速度。3.通过对基于信息熵的决策树构造算法的研究得出,该方法存在的主要问题是一棵决策树中子数的重复,以及有些属性在一棵决策树中的某一路径上被多次检验,本文将属性加权平均重要性用于选择分离属性来构造决策树,且实现了基于属性加权平均重要性的决策树构造算法WMAS,该方法可以克服上述缺点,降低了复杂度,提高了分类精度。本文通过实例和实验对提出的算法进行了验证和证明。关键词:数据挖掘;粗糙集理论;加权平
4、均属性重要性;属性约简;决策树IIAbstractDataMiningmeanstheprocessofextractingcrypticandpotentialhelpfulinformationfromamassofData.ItisonekindofbrandnewDataanalysistechnologyandpopularinthefiledofbankingfinance,insurance,government,education,transportationandnationaldefenseetc
5、.Thetheoryofroughsets,presentedbyPolishmathematicianPawlakZ.,isapowerfulmathematicaltoolforanalyzinguncertain,fuzzyknowledge.Basedontheroughsets,thisdissertationfocusesonthecoreissuesincludingattributereductionandclassificationindatamining.Itpointsouttheshortco
6、mingsbystudyingthetheoryandmethodofattributereductionalgorithmsincompleteinformationsystem.Andanimprovedalgorithmforattributereductionbasedonroughsetsisproposed.Byanalyzingthetraditionaldecisiontreealgorithmwithinstance,theproblemsfromthetraditionaldecisiontree
7、algorithmarepointedoutandtheimprovedoftraditionaldecisiontreealgorithm,whichisnameddecisiontreeconstructingalgorithmbasedontheweightedmeanattributesignificance(WMAS),isputforward.Mainresearchresultsareasfollows:1.Aconceptoftheweightedmeanattributesignificance,w
8、hichconsidersboththeimportanceofattributeanditscontributiontoclassification,isproposedbasedonthestudyofattributesignificanceinvariousattributereductionalgorithms.2.Howtoachi
此文档下载收益归作者所有