欢迎来到天天文库
浏览记录
ID:37022731
大小:2.24 MB
页数:64页
时间:2019-05-17
《基于核相似性和低秩近似的缺失值填充算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于核相似性和低秩近似的缺失值填充算法研究ResearchonImputingAlgorithmofMissingValuesBasedonKernelSimilarityandLowRankApproximation学科专业:软件工程作者姓名:孙晓飞指导教师:谢宗霞副教授天津大学软件学院二零一七年十二月独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研宄成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研宄成果,也不包含为获得天津大学或其他教育机构的学位或证书而使用过的材料一。与我同
2、工作的同志对本研宄所做的任何贡献均已在论文中作了明确的说明并表示了谢意。签字曰期丨丨学位论文作者签名:知:7^7年u月#日学位论文版权使用授权书本学位论文作者完全了解天涑大学有关保留、使用学位论文的规定。特授权天津大学可以将学位论文的全部或部分内容编入有关数据库进行检索,并釆用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名1:导师签名:輕15签字曰期:>12月曰签字曰期年/乂月/曰"年^y摘
3、要数据挖掘的目的是在复杂的数据集中发现有价值的规律或知识。这需要专业人员建立可靠的算法模型来发掘,而可靠的算法模型依赖于高质量的数据。缺失值在各行各业中普遍存在,这些缺失值严重影响了数据质量。如何准确,有效的处理缺失值是当前数据挖掘领域研究的一个热点。通常处理缺失值有两类方法:删除法和填充法。对删除法来说当数据集中含有大量的缺失数据时,直接删除会导致训练样本丢失大量信息。填充法则经过较长时间的发展有了较完备的理论和技术,其种类也不断的更新发展。该方法利用数据集本身对缺失值进行填充,使得整个数据集完整,有利于模型的建立。近些年低秩技术在图像恢复,推荐系统
4、得到了很好的应用,利用低秩矩阵进行建模,通过子空间来逼近样本空间,能够得到原始空间的近似解。本文主要是研究基于核相似性和低秩近似的缺失值填充算法,在填充的方法和策略上做了一些改进,主要的工作如下:1.基于核相似性来构造缺失数据的相似样本进行填充。该方法具体是通过核函数的相似性找到同包含缺失值样本最相近的K个完整的样本,最后用这K个样本所对应的缺失属性的加权均值来完成缺失值的填充。2.构建基于相关性阈值的低秩填充模型。首先计算包含缺失值样本同其他样本间的线性相关性,然后设定Pearson线性相关性阈值a,将线性相关性大于该阈值a的样本选出来,接着构建低秩
5、填充模型,最后求解得到该缺失值。3.低秩矩阵填充在风速缺失值上的应用。本文将时间序列的风速数据转换成低秩矩阵形式,通过实验来决定风速矩阵的行数和列数,采用GROUSE优化算法通过子空间更新策略找到求解最小核范数的最优解,从而填补缺失的风速值。实验表明,基于核相似性的缺失值填充算法在相同的缺失比例下填充效果最优。而基于线性相关性阈值的低秩填充算法,在大样本集上的表现优于在整个缺失样本上一次性填充的结果。将基于时间序列的短时风速数据转换为矩阵的形式,然后利用低秩近似的方法进行填充,效果好于传统的填充方法。关键词:缺失值,核相似性,线性相关性,低秩填充IAB
6、STRACTThepurposeofdataminingistofindvaluablerulesorknowledgeincomplexdatasets.Thisrequiresprofessionalstobuildreliablealgorithmmodelstodiscover,andreliablealgorithmmodelsrelyonhighqualitydata.Missingvaluesarecommoninallwalksoflife,andthesemissingvaluesseriouslyaffectthequalityof
7、thedata.Howtodealwithmissingvaluesaccuratelyandeffectivelyisahottopicinthefieldofdatamining.Generally,theprocessingofmissingvaluescanbedividedintotwomethods:deletingmethodandimputationmethod.Deletingmethodisstraightforward,butvirtuallylostalotofusefuldata,especiallywhenthedatase
8、tcontainslargeamountsofmissingdata.Imputingisan
此文档下载收益归作者所有