欢迎来到天天文库
浏览记录
ID:37393252
大小:6.26 MB
页数:67页
时间:2019-05-23
《基于粗糙集理论的属性约简与决策树分类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、分类号UDC密级单位代码!Q151大连海事大学工程硕士学位论文基于粗糙集理论的属性约简与决策树分类算法研究(学位论文形式:基础研究)石凯指导教师刘智职称副教授学位授予单位大连海事大学申请学位级别工程硕士工程领域计算机技术论文完成日期2014年6月答辩Et期2014年6月15日答辩委员会主席AttributeReductionbasedonRoughSetTheoryandResearchonClassificationAlgorithmofDecisionTreeAthesisSubmittedtoDalianMaritimeUniversi.ty—I
2、npartialfulfillmentoftherequirementsforthedegreeofMasterofEngineeringByShiKai(ComputerTechnology)ThesisSupervisor:AssociateProfessorLiuZhiJuly2014大连海事大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成博/硕士学位论文!基王狸鳖篡堡诠的鹰丝终煎皇迭筮挝佥耋篡这婴塞::。除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均
3、己在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体己经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:石‰学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到《中国优秀博硕士学位论文全文数据库》(中国学术期刊(光
4、盘版)电子杂志社)、《中国学位论文全文数据库》(中国科学技术信息研究所)等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:保密口在——年解密后适用本授权书。不保密硒(请在以上方框内打“√”)论文作者签名:/臼刁~导师签名:_朋翻嘲日期:)口竹年2;月中文摘要摘要现如今,我们正身处在一个“大数据”的时代,每天产生的大量数据之中隐藏着各种各样有价值的信息。如何从海量数据中高效地挖掘出有用的信息,是数据挖掘技术研究的热点问题。决策树算法因其简单高效在数据挖掘的分类领域被广泛采用。由于冗余和不一致数据的存在,对
5、决策树算法在分类效率和分类准确率两方面产生了一定程度的影响,并且普遍采用的单变量决策树算法生成的决策树规模较大。因此,本文将粗糙集理论中的属性约简与决策树算法相结合,提出了改进算法,具有较强的理论研究意义和实际应用价值。本文的主要研究内容分为以下几个部分:(1)原有的属性约简算法通常是在整个数据集上进行的,且对于不相容数据采用的是直接删除的方法。考虑到这两方面的缺陷,本文提出了改进的简化决策表算法。该算法既删除了冗余数据又保留了不相容数据。通过UCI数据集的对比实验表明,该算法能有效减少原始数据集对象数目,为后续的属性约简算法和决策树算法提高效率。(2
6、)针对基于差别矩阵的求核属性算法和代数定义下的求核属性算法的缺陷,本文提出了基于信息熵理论的求核属性算法。通过该算法求得的核属性表明,对于相容决策表,代数定义下的约简和基于信息熵的约简是一致的。但对于不相容决策表,代数约简只能保证相容部分的U/IND(P)不发生改变,而基于信息熵的约简能使得对于整个数据集的V/JⅣD(P)不发生改变,即代数定义下求得的核属性是信息熵下的一部分。在求得的核属性基础上,本文提出了基于属性重要度的完备属J}生约简算法。(3)针对单变量决策树算法生成的决策树规模大的缺点,本文提出了多变量决策树算法,且通过确定性程度的引入进一步
7、简化决策树。通过UCI数据集表明该算法在准确度和树规模两方面都优于其他4种算法。最后将本文的算法以模块化的形式嵌入属性约简与决策树生成系统,实现对数据集的约简和分类。关键词:粗糙集;简化决策表;不相容数据;属性约简;多变量决策树英文摘要ABSTRACTItisgenerallyknownthatwearenowintheageofbigdata,everydaylargeamountsofdataareproducedinwhichavarietyofvaluableinformationishidden.Howtominetheusefulinfor
8、mationfromplentyofdataefficientlybecomesonehoti
此文档下载收益归作者所有