欢迎来到天天文库
浏览记录
ID:32980102
大小:4.31 MB
页数:57页
时间:2019-02-18
《代价敏感的缺失值填充若干问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、代价敏感的缺失值填充若干问题研究专业名称:计算机软件与理论申请人:刘错明指导教师:张师超论文答辫委员会主席丫梦咖委员代价敏感的缺失值填充若干问题研究代价敏感的缺失值填充若干问题研究研究生姓名:刘揩明导师姓名:张师超专业:计算机软件与理论研究方向:数据挖掘中文摘要在数据挖掘与机器学习、模式识别和信息检索等数据分析等理论的应用领域中,数据的缺失是一个处处存在,不可避免且具有挑战性的问题。由于理论发展和实际应用的需要,国内外许多学者都较为深入地研究了缺失数据的成因、类型以及填充算法。各种用于缺失数据填充的算法已经被提出,典型的算法有:EM算法、单一填充法、多重填充算法和C4.5算法。但
2、是,上述这些处理缺失数据的方法都是独立于具体应用的,也就是说它们是不考虑具体的应用领域而独立的填充算法。然而最新的研究结果指出这些不依赖于具体应用的填充算法对于一些机器学习任务(如代价敏感学习)来说是不适用的。在用给定的含有缺失数据的数据集训练一棵代价敏感决策树时,由于受到总代价约束的原因使得一些属性的缺失值不用去填充。故我们需要弥补代价敏感学习与缺失值填充问题之间留下的空白。在数据挖掘和机器学习领域,代价敏感问题的研究一直是一个热点问题,国内和国外的很多研究人员或研究机构在代价敏感问题方面都做了许多研究,并提出了很多新的理论与方法。这当中最受关注的是两类代价:即测试代价和误分类
3、代价。在国外,最早针对数据缺失处理技术展开研究的是美国,它研究的出发点是纠正整个美国社会保险的数据差错。在此期间学者们提出了利用与缺失数据最近似的值来填补空缺数据的方法,例如k近邻分类、粗糙集理论、贝叶斯网、神经网络〔NN〕等。目前在国内,对缺失值填充问题的研究尚处在起步阶段,尽管在一些学术会议和期刊文献中也可以找到一些有关缺失值理论性研究,但是对缺失数据处理直接相关的研究成果并不常见。此外基于代价敏感的缺失值填充这种新颖的方法在国内外的研究中尚属罕见。上述前人的研究工作为本文的研究提供了坚实的理论方法基础。本论文在此之上将对现有的代价敏感的Cll算法进行改进,并准备对代价敏感缺
4、失值填充的以下几个问题进行讨论与研究:〔1)研究现有考虑代价敏感问题的缺失值填充算法的优点与缺点,针对其存在的问题进行算法改进,算法策略思想予以实现,从而做为实验改进算法性能的平台;〔2)提出对于代价敏感缺失值填充的有用属性的选择理论,即提出一个有效发现absent事例的方法,从而有效降低系统的填充花费且提高系统精度。关键词:代价敏感学习、缺失值填充、absents事例。代价敏感的缺失值填充若干问题研究AStudyOnMissingDataImPutationBasedonCost一sensitiveIndataminingandmaehinelearning,Patternre
5、eognitionandinformationretrieval,dataanalysis,theoryaPPlieations,dataevel,ywherethere15alaekofinevitableandehallengingProblem.TheoretiealdeveloPmentandPraetiealaPPlieationbeeausetheneedsofmanydomesticandforeignseholarshavestudiedmoreindePththecausesofmissingdata,妙pe,andfillalgorithm·Variousal
6、gorithmsusedforfillingmissingdatahavebeenProPosed,thetyPiealalgorithmhas:EMalgorithm,single一fillingmethod,multiPlefillingalgorithmandC4.5algorithm.However,thesemethodsofhandlingmissingdataareindePendentofsPeeifieaPPlieations,thattheydonoteonsiderthesPeeificaPPlieationareasandindePendentfillin
7、galgorithm.However,thelateststudyeoneludedthatthesedonotdePendonthesPeeifieaPPlieationofthefillingalgorithmforsomemaehinelearningtasks(suehastheeost一sensitivelearningj15notaPPlieable.Inthegivendataseteontainingmissingdatatrainaeost一sensitived
此文档下载收益归作者所有