欢迎来到天天文库
浏览记录
ID:34131949
大小:6.36 MB
页数:65页
时间:2019-03-03
《数据预处理中数据缺失填补算法的研究与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、广东工业大学硕士学位论文数据预处理中数据缺失填补算法的研究与应用姓名:王凤梅申请学位级别:硕士专业:计算机应用技术指导教师:傅秀芬20100501摘要摘要随着技术的发展与科学的进步,数据量的飞速增长已成为一个不容忽视的问题,面临堆积如山的数据,想要获取有用的信息与知识并非易事。因此数据挖掘技术伴随着人们的需求与科技的进步获得快速发展。然而在实际应用时,缺失数据的出现对所有数据分析技术包括数据挖掘都是一个普遍存在却富于挑战性的问题。缺失数据的产生原因多种多样,有主观上人为的也有客观上的难以获取。它们广泛存在于现实的数据集中,对数据分析产生严重影响:首先,系统丢失了
2、大量的有用信息,明显削弱了信息与统计的能力:其次,增强了系统的不确定性,使得正常的数据分析方法不适用或难于应用;最后,包含缺值的数据还会使挖掘过程陷人混乱,导致不可靠的输出。因此如何正确处理这些缺失数据成为数据预处理过程中核心问题之一。缺失填补技术无论是在技术还是理论上都得到了空前的重视,国际上已有大量专家及研究机构对些问题进行深入研究。本文首先论述了缺失数据填补的意义及研究现状,通过分析近年来出现的缺失填补策略,将其分成基于分类、聚类、关联的三种填补思想,在此基础上提出一种新的缺失填补算法。通过对当前几个开源挖掘工具预处理模块的研究,设计了一个处理缺失数据集的
3、预处理模型,并通过研究基于分类思想及关联思想的填补策略,对设计应用于模型中新的缺失填补法,规则近邻法进行详细设计实现,通过实验对其填补的有效性,准确率进行验证。实验用5折交叉验证法证明算法的有效性;并通过与KNN填补算法进行对比证明该算法在填补准确率上的优越性;通过增加缺失比例及改变提取规则的最小支持度与置信度确定影响该算法填补准确率的因素;面对连续数据集中的缺失值,通过分析对比选择基于MDLP的方法进行离散化,并通过扩大离散化的粒度对填补的准确率结果进行分析,指出要使填补获得好效果并非离散粒度越大越好;填补算法应用于离散化后的数据集进行与离散数据集相似的实验,
4、证明此算法对连续数据集缺失值填补的有效性。最后对全文进行总结及下一步工作需要改进的地方。关键词:缺失数据;缺失填补;关联规则;预处理;离散化广东工业大学硕士学位论文ABSTRACTTherapidgrowthintheamoumofdatahasbecomeaproblemthatcannotbeignoredalongwiththedevelopmentoftechnologyandscience.It’Snoteasyforyoutogetusefulinformationandknowledgewhenfacingwithmountainsofdata.T
5、herefore,dataminingtechnologywithpeople’Sneedsandadvancementoftechnologyisatafastpace.However,inpractical,theemergenceofmissingdataisapervasivebutchallengingproblemforalldataanalysistechniquesincludingdatamining.Therearevarietiesofreasonsforhowthemissingdataproduced,itmaybesomebodydo
6、esitintentionallyornegligently,oritisdifficulttoobtainobjectivelyTheirpervasiveexistenceinmostrealworlddatasetsseriouslyaffectstheprocessofdataanalysis:firstly,thesystemlostalotofusefulinformation;itclearlyweakenedtheabilityofinformationandstatistics.Secondly,itincreasestheuncertaint
7、yofthesystem,makesthesystemmoredifficulttograspimplicationofthedeterministiccomponent,italsomakescommondataanalysismethodsinappropriateordifficulttoapply.Last,thedatawithmissingvaluescanintroducechaosintominingprocess,resultinginunreliableoutput.Sohowtohandlethesemissingdatabecomeson
8、eofthecoreis
此文档下载收益归作者所有