欢迎来到天天文库
浏览记录
ID:32756327
大小:5.31 MB
页数:59页
时间:2019-02-15
《基于统计学习数据预处理缺失值清洗方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于统计学习的数据预处理缺失值清洗方法研究摘要随着因特网的蓬勃发展、社会的数字化变革以及经济的快速发展,数据的规模正在以惊人的速度不断增长。如何从大量数据中提取所蕴藏着的有价值信息变得越来越重要,由此,数据挖掘技术应运而生。数据挖掘算法也越来越受到人们的重视,其中许多算法和模型都建立在理想的数据集上,而现实中的数据集通常存在着数据不完整的情况,即数据记录中含有缺失值的情况。对于缺失数据,通常采用某种清洗方法对其进行处理,然后在处理后生成的完整数据集上进行数据挖掘。目前应用在缺失值插补上的方法有很多,它们各有其优缺点。本文在对缺失值插补方法进行了大量研究和分析
2、后,针对具有聚类特征的数据集提出了一种变量选择、回归预插补、聚类分析、回归插补的缺失值清洗框架,该框架构成了基于统计学习的缺失值清洗方法。此外,针对本文提出的缺失值插补方法,在深入研究K—means算法的优缺点后,提出一种改进的聚类算法。并在实现过程中提出了整个缺失值清洗过程的流程。最后分别在聚类数据集上、随机数据集和真实数据集上进行了实验。通过与其他缺失值插补方法在插补效果上的比较,实验验证了本文提出的方法的有效性。关键词:数据预处理;缺失值;聚类;回归AbstractWiththerapiddevelopmentoftheInternet,sociald
3、igitizationandeconomy,thesizeofthedataaregrowingatanamazingspeed.Obtainingvaluableinformationfromlargedatabecomesmoreandmoreimportant,therefore,dataminingtechnologycameintobeing.Morepeopleputmoreattentiontodatamining.Themajorityofdataminingalgorithmandmodelarebasedontheidealdataset
4、,however,therealdataisoftenincomplete.namely,missingdata.Weusuallyhandlethemissingdatabysomemethod,andwecanminedataoncompletedataset.Therearemanyimputationmethodsonmissingdataestimation,eachmethodhasitsspecialadvantageanddisadvantage.Basedonamassofstudiesonmissingdata,inthispaper,w
5、eproposedamethodonmissingdatawhichincludingfourmajorsteps.Therearevariableselection,regressionimputation,clusteranalysis,regressionimputation.Thismethodisbasedonalotofknowledgeonstatisticallearning,SOitiscalledthemethodofhandlingmissingdatebasedonstatisticallearning.Inaddition,inth
6、ispaper,fortheclusteranalysiswhichusedinnewmethodonmissingdate,wedoalargeamountofresearchontheadvantagesanddisadvantagesinK—means,andweproposedanimprovedclusteringalgorithm.Thenweproposedacompletecleaningprocessflowonhandlingmissingvalue.Finally,wedidexperimentrespectivelyonthedata
7、setwithclustering,arandomdatasetandarealdataset.Throughacomparisonwithotherhandingmissingdatamethod.theexperimentsshowtheeffectivenessofthemethodofhandlingmissingdatebasedonstatisticallearning.Keywords:datapreprocessing;missingdata;clustering;regression第1章绪论1.1课题研究背景及意义随着信息化的普及、互联网
8、和存储技术的发展以及传感器、RFID等各种先进信息采
此文档下载收益归作者所有