欢迎来到天天文库
浏览记录
ID:37063254
大小:3.75 MB
页数:77页
时间:2019-05-16
《面向高维数据的自适应性多目标聚类集成》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士学位论文面向高维数据的自适应性多目标聚类集成选择作者姓名黄炜杰学科专业计算机科学与技术指导教师余志文教授所在学院计算机科学与工程学院论文提交日期2018年4月20日Multi-objectiveClusterEnsembleSelectionforHighDimensionalDataADissertationSubmittedfortheDegreeofMasterCandidate:HuangWeijieSupervisor:Prof.YuZhiwenSouthChinaUniversityofTechnologyGuangzhou,China摘要随着互联网+时代的到来,数据的维度
2、和数量呈爆炸式增长,针对高维数据的聚类分析问题愈发重要。聚类分析的任务的目标就是把数据根据相似性划分为多个簇,在图像分割、信息检索等领域中有着重要地位。然而由于聚簇结构先验知识的缺失,现有聚类算法难以同时处理所有类型的数据。聚类集成算法通过生成一系列具有多样性的聚类结果,并利用一致性函数进行融合来解决上述问题。聚类集成选择能有效地剔除低质量的集成成员,提升聚类集成的质量。传统聚类集成选择算法同时结合聚类集成的准确性和多样性,但却无法衡量二者重要性,其根本在于缺乏对数据集属性的量化分析。本文提出四种样本稳定性指标以及一种融合指标对数据样本进行划分,并根据数据集稳定性指标来计算样本子集大小,在
3、稳定样本集合上评估聚类集成的准确性以及在不稳定样本集合上评估多样性,提升聚类集成选择的自适应性与泛化能力。为对目标函数进行优化,传统聚类集成选择算法采用前向搜索等策略来搜寻最优聚类结果子集,此类方法时间复杂度低但优化结果质量差。多目标演化算法是解决该问题的有效方法,但利用多目标遗传算法进行聚类集成选择的研究工作甚少。本文提出一种基于进化情况进行方向调整的多目标遗传算法,以聚类集成选择策略为个体,以稳定性部分的准确性和不稳定性部分的多样性作为目标函数进行优化,以每轮迭代中的目标函数改进情况来进行个体筛选以及变异率的衰减,从而搜寻出最佳聚类集成子集并进行集成融合。本文在多种类型的数据集上评测本
4、文算法的性能,结果显示该算法能有效提升聚类分析的准确性以及泛化能力。关键词:集成学习;多目标优化;遗传算法;机器学习;数据挖掘IAbstractWiththerapiddevelopmentoftheInternet,thereareexplosiveamountofdata.Asaresult,theclusteringproblemforhigh-dimensionaldatahasbecomeincreasinglyimportant.Theobjectiveofclusteringistogroupdataintodifferentclustersbasedonsimilarity
5、,anditplaysanimportantroleinmanyapplicationssuchasinformationretrieval.However,duetothelackofpriorknowledgeofdata,nosingleclusteringalgorithmisabletohandleallkindsofdataset.Clusterensembleisproposedtosolvetheaboveproblems,whichgeneratesasetofdiverseclusteringsolutionsinthefirststep.Thegenerationme
6、thodsmainlyincludebagging,randomprojection,differentclusteringalgorithmsandsoon.Afinalclusteringresultisobtainedusingconsensusfunctionafterwards.However,thepresenceoflow-qualityresultsintheensemblemayhurttheperformanceoffinalresult.Clusteringensembleselectionmethodcaneffectivelyselectacompactsubse
7、tofclusteringresultandimprovetheaccuracyofclusterensemble.Althoughtraditionalclusterensembleselectionmethodstaketheaccuracyanddiversityintoconsideration,theycannotmakepropertradeoffbetweenthemadaptively.Thereason
此文档下载收益归作者所有