基于统计学习数据预处理缺失值清洗方法的研究

基于统计学习数据预处理缺失值清洗方法的研究

ID:32756327

大小:5.31 MB

页数:59页

时间:2019-02-15

基于统计学习数据预处理缺失值清洗方法的研究_第1页
基于统计学习数据预处理缺失值清洗方法的研究_第2页
基于统计学习数据预处理缺失值清洗方法的研究_第3页
基于统计学习数据预处理缺失值清洗方法的研究_第4页
基于统计学习数据预处理缺失值清洗方法的研究_第5页
资源描述:

《基于统计学习数据预处理缺失值清洗方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于统计学习的数据预处理缺失值清洗方法研究摘要随着因特网的蓬勃发展、社会的数字化变革以及经济的快速发展,数据的规模正在以惊人的速度不断增长。如何从大量数据中提取所蕴藏着的有价值信息变得越来越重要,由此,数据挖掘技术应运而生。数据挖掘算法也越来越受到人们的重视,其中许多算法和模型都建立在理想的数据集上,而现实中的数据集通常存在着数据不完整的情况,即数据记录中含有缺失值的情况。对于缺失数据,通常采用某种清洗方法对其进行处理,然后在处理后生成的完整数据集上进行数据挖掘。目前应用在缺失值插补上的方法有很多,它们各有其优缺点。本文在对缺失值插补方法进行了大量研究和分析

2、后,针对具有聚类特征的数据集提出了一种变量选择、回归预插补、聚类分析、回归插补的缺失值清洗框架,该框架构成了基于统计学习的缺失值清洗方法。此外,针对本文提出的缺失值插补方法,在深入研究K—means算法的优缺点后,提出一种改进的聚类算法。并在实现过程中提出了整个缺失值清洗过程的流程。最后分别在聚类数据集上、随机数据集和真实数据集上进行了实验。通过与其他缺失值插补方法在插补效果上的比较,实验验证了本文提出的方法的有效性。关键词:数据预处理;缺失值;聚类;回归AbstractWiththerapiddevelopmentoftheInternet,sociald

3、igitizationandeconomy,thesizeofthedataaregrowingatanamazingspeed.Obtainingvaluableinformationfromlargedatabecomesmoreandmoreimportant,therefore,dataminingtechnologycameintobeing.Morepeopleputmoreattentiontodatamining.Themajorityofdataminingalgorithmandmodelarebasedontheidealdataset

4、,however,therealdataisoftenincomplete.namely,missingdata.Weusuallyhandlethemissingdatabysomemethod,andwecanminedataoncompletedataset.Therearemanyimputationmethodsonmissingdataestimation,eachmethodhasitsspecialadvantageanddisadvantage.Basedonamassofstudiesonmissingdata,inthispaper,w

5、eproposedamethodonmissingdatawhichincludingfourmajorsteps.Therearevariableselection,regressionimputation,clusteranalysis,regressionimputation.Thismethodisbasedonalotofknowledgeonstatisticallearning,SOitiscalledthemethodofhandlingmissingdatebasedonstatisticallearning.Inaddition,inth

6、ispaper,fortheclusteranalysiswhichusedinnewmethodonmissingdate,wedoalargeamountofresearchontheadvantagesanddisadvantagesinK—means,andweproposedanimprovedclusteringalgorithm.Thenweproposedacompletecleaningprocessflowonhandlingmissingvalue.Finally,wedidexperimentrespectivelyonthedata

7、setwithclustering,arandomdatasetandarealdataset.Throughacomparisonwithotherhandingmissingdatamethod.theexperimentsshowtheeffectivenessofthemethodofhandlingmissingdatebasedonstatisticallearning.Keywords:datapreprocessing;missingdata;clustering;regression第1章绪论1.1课题研究背景及意义随着信息化的普及、互联网

8、和存储技术的发展以及传感器、RFID等各种先进信息采

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。