欢迎来到天天文库
浏览记录
ID:50411993
大小:3.20 MB
页数:65页
时间:2020-03-05
《基于度量学习的不完整数据聚类方法研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕硕硕士士士学学学位位位论论论文文文基于度量学习的不完整数据聚类方法研究RESEARCHONMETRICLEARNINGBASEDCLUSTERINGMETHODWITHINCOMPLETEDATA闫闫闫铭铭铭哈哈哈尔尔尔滨滨滨工工工业业业大大大学学学2015年年年06月月月国内图书分类号:TP315学校代码:10213国际图书分类号:004.4密级:公开工工工学学学硕硕硕士士士学学学位位位论论论文文文基于度量学习的不完整数据聚类方法研究硕士研究生:闫铭导师:张岩申请学位:工学硕士学科:计算机科学所在单位:计算机科学与技术学院答辩日期:2015年06月授予学位单位:哈尔滨工业大学Classif
2、iedIndex:TP315U.D.C:004.4DissertationfortheMasterDegreeinEngineeringRESEARCHONMETRICLEARNINGBASEDCLUSTERINGMETHODWITHINCOMPLETEDATACandidate:YanMingSupervisor:ZhangYanAcademicDegreeAppliedfor:MasterofEngineeringSpecialty:ComputerScienceAliation:DepartmentofComputerScienceandTechnologyDateofDefence:
3、June,2015Degree-Conferring-Institution:HarbinInstituteofTechnology哈尔滨工业大学工学硕士学位论文摘要随着互联网技术的发展,网络中产生了越来越多的数据,在数据收集、传输以及存储的过程中经常会出现问题导致数据出现了不完整性。对于收集到的数据人们很关心其内部的特定关系以及含义,因此数据挖掘技术得到了广泛的应用。聚类分析技术是数据挖掘领域中核心技术之一,然而在面对不完整数据时传统的聚类分析技术效果并不理想。由于Mahalanobis距离度量函数在处理非线性空间变换以及复杂分布的数据时的不足,针对聚类分析中的距离度量问题,本文给出了基于树
4、叶子节点特征表示算法、决策路径特征表示算法,提出了基于随机树结构的度量学习算法。结合树结构的特点,构造非线性的特征,利用非线性的空间变换扩展数据中的隐含结构信息。利用随机树结构的度量学习方法可以很好的降低结构泛化误差,增加结果的稳定性,同时从理论上证明了提出的算法的有效性,并且对比实验的结果体现了本文提出的度量学习方法具有很好的表现。由于基于协同过滤的处理方法以及基于期望最大化的处理方法在针对数据随机缺失的情况下的处理能力不足,本文针对不完整数据往往存在数据缺失的问题,提出了基于自动编码的不完整数据处理算法,算法结合回归分析的思想对不完整数据进行处理。因为传统的回归分析方法需要基于某种特定分布
5、进行预测,并且需要确定输入的形式。本文提出的基于自动编码的不完整数据处理算法可以很好的解决数据的随机缺失情况,并且对于不完整数据的预测和恢复并不需要依赖特定的分布。通过实验对比可以看到,本文提出的不完整数据处理算法可以很好处理不完整数据的预测与恢复任务。在不完整数据进行聚类分析时,单一的聚类方法往往依赖特定的假设,而由于不完整数据的分布的未知性,仅利用单一的聚类方法在实际中效果较差。本文结合不完整数据的特点,利用GraphLaplacian性质生成聚类特征。结合提出的不完整数据处理方法以及基于随机树结构的度量学习方法,利用GraphLaplacian的特性在不完整数据进行聚类分析,从理论上证明
6、了算法在处理聚类问题上的有效性,并且通过在UCI数据集上的对比实验,验证了本文提出的聚类算法可以很好的处理在不完整数据上的聚类任务。关键词:度量学习;不完整数据处理;聚类算法;数据挖掘-I-哈尔滨工业大学工学硕士学位论文AbstractWiththedevelopmentofInternettechnology,therearemoreandmoredatahasbeengeneratedbytheinternet.Thisprocedureoftencausesproblemsindatacollection,trans-missionandstorage,whichareleadingto
7、theemergenceofincompletedata.Peoplecon-cernabouttherelationshipbetweendataandspecificmeaningofdata,thereforethedataminingtechnologyhasbeenwidelyused.Clusteranalysisisoneofthecoretechnologiesofdataminin
此文档下载收益归作者所有