欢迎来到天天文库
浏览记录
ID:10367183
大小:2.16 MB
页数:54页
时间:2018-07-05
《数据挖掘领域中若干预处理方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中图分类号:TP391单位代码:11414学号:2013215059题目数据挖掘领域中若干预处理方法研究学科专业计算机科学与技术研究方向数据挖掘及知识发现硕士生史博文指导教师李国和教授入学时间:2013年9月论文完成时间:2016年5月硕士学位论文独创性声明郑重声明:本硕士学位论文是作者个人在导师的指导下,独立进行研究工作所取得的成果。除了文中特别加以标注和致谢的地方外,论文中不包含其他个人和集体己经发表或撰写的研究成果,也不包含为获得中国石油大学或者其它单位,均己在论文中的学
2、位或证书所使用过的材料。对本研究做出贡献的个人和集体生的法律后果并做了明确的说明并表示了谢意。作者和导师完全意识到本声明产承担相应责任。^:日期―作者签名:导师签名:^日期:^k:考丨硕士学位论文版权使用授权书全了解中国石油大学(北京)学位论文版权使本学位论文作者及指导教师完:学校有权保留并向有关部□和机构送父用的有关规定,使用方式包括但不限于学位论文;允许学位论文被查阅和借阅;学校可以公布字位论的复印件和电子版用影印、缩印或扫描等复制手段保存和汇编学位论文的
3、全部或部分内容,可以采检索。文的全部或部分内容编入有关数据库进行;可以将本学位论文围,解密后适用本授权书。,保密期限i年本学位论文属于保密范、本学位论文作者如需公开出版学位论文的部分或全部内容,必须征得导师书一署名单位面同意(北京)为第。,且须以中国石油大学日齓.作者签名:导师签名日期:y\--I摘要摘要现实世界中数据具有不完整,不一致等特点,为了提高数据挖掘的质量产生了数据预处理技术。本文介绍了粗糙集的理论知识,并在此基础上,主要做了以下两个方面的研究:1、在
4、传统基于属性依赖度的约简方法基础上,定义更精确的强化正域概念。通过对边界域的精确划分,确定各条件属性对决策属性的强化依赖度,并用自顶向下的启发式搜索算法得到约简结果。通过对UCI数据集实验,结果表明,相比于经典方法,REPR能更有效地对决策表进行属性约简。2、首先对离散化问题形式化描述,并采用最优化方法进行离散化定义;其次基于信息熵思想分别定义修正信息增益率IIGR和统计相似性SIS作为离散化的最优化目标函数,并给出离散化约束条件;最后采用遗传算法实现连续属性的离散化。采用UCI数据集实验对比,在
5、统计意义下,本文离散化方法实现离散区间数少,离散后数据集构建决策树的规模小,分类精度高,表明以最优化为指导,多个连续属性并行离散化兼顾属性间的关联关系,数据离散化更加有效。关键词:粗糙集;离散化;属性约简;遗传算法-II-ABSTRACTResearchonSomePreprocessingMethodsintheFieldofDataMiningABSTRACTThedataintherealworldisincomplete,inconsistentandsoon,andthedataprep
6、rocessingoccursinordertoimprovethequalityofdatamining.Thisthesisintroducesthetheoreticalknowledgeofroughset,andonthebasisofthesetheories,tworesearchesaredone:1.Amoreprecisedefinitionofthepositiveregionisproposedonthebasisofthetraditionalattributedepen
7、dence.Bydividingtheboundaryregionaccurately,thedependenceofconditionalattributesondecisionattributesareenhanced,andtheresultsareobtainedbyusingthetop-downheuristicsearchalgorithm.ThroughexperimentsonUCIdatasets,theresultsshowthatREPRcanbemoreefficient
8、forattributereductionondecisiontablethantheotherclassicalmethods.2.Datadiscretizationisfirstformalizedanddefinedasoptimalissue,andthendefinitionsofIIGR(ImprovedInformationGainRatio)andSIS(StatisticInformationSimilarity)aregivenasoptimalgoalfun
此文档下载收益归作者所有