欢迎来到天天文库
浏览记录
ID:37062697
大小:7.87 MB
页数:99页
时间:2019-05-17
《基于特征子空间的混合聚类集成学习方法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、FeatureSubspaceBasedHybridClusteringEnsembleApproachADissertationSubmittedfortheDegreeofMasterCandidate8ChenJieyanSupervisor8Prof.YuZhiwenSouthChinaUniversityofTechnologyGuangzhou,China<TP3.10561201520131377 36@'2:A41>2、à8:«¥Ô“x7èN8xÜoxß"#_à8úåºßx! ¹Ûá¯a8ºhx(!¬¤£¦ý§-°·8(µ°ýãĆ°·8(µ°x7¥+V78TWÐsxx7¥+°·8µ°ãĆud5d8'8Ė´«¥ud8ĄT«¥1òz®«¥1gĕT«¥1ĖQ«¥摘要聚类集成是一种将不同聚类结果或者聚类模式进行集成共识的方法,能获得比单一聚类算法更好的鲁棒性、稳定性和准确性。针对聚类集成的研究现状,其方法体系3、仍不够成熟,具有以下局限性:(1)在高维数据集中,每个集成单元的基聚类仍会面临维度灾难,无法发挥基聚类的优势;(2)需要寻找通用的算法和参数;(3)如何从原始数据集中获取不同的视图;(4)集成中的基聚类主要采用硬划分或软划分聚类,并没有将两者的划分信息进行有效的融合处理;(5)集成过程中会产生冗余干扰的聚类结果。针对以上的局限性,本论文提出两种有效的聚类集成方法。第一种是基于潜在模型的软子空间聚类集成方法;该方法通过Jensen-Shannon散度描述数据属性的分布特点,并结合模糊理论构造软子空间,在低维子空间中能提升基聚类性能以及集成中的结果多样性;随后通过集成4、概率潜在语义分析模型,构造概率属性矩阵,利用潜在因子分析方法,获得概率因子,强化类别概率。第二种是基于自适应三支决策的随机子空间混合聚类集成方法;通过随机子空间和随机参数双重随机方法解决高维空间问题以及保证集成中的结果多样性;融合硬划分和软划分聚类信息,构造粗糙集中的三支决策体系,结合聚类有效性指标混合策略,使用三支决策体系中的等价关系自适应地减少冗余干扰信息,加强聚类边界的稳定性。本文通过18个公共数据集将提出的两种方法与当前主流的聚类集成方法进行实验对比。基于潜在模型的软子空间聚类集成方法在属性差异明显的数据集上能达到很好的聚类效果。基于自适应三支决策的随机子5、空间混合聚类集成方法能在大部分数据集中表现出很好的聚类性能,具有泛化性,并通过非参数检验方法,其聚类性能在统计学上表现出显著的优越性。因此,本论文提出的聚类集成方法有利于提高数据分析中的聚类性能,为大数据的知识挖掘提供可靠的保证。关键词:集成学习;子空间;模糊理论;混合聚类;三支决策IAbstractClusteringensemblefocusesonintegratingdifferentclusteringresultsorclusteringmod-els.Althoughclusteringensembleobtainsbetterrobustness,6、stabilityandaccuracythansingleclusteringalgorithms,ithasthefollowinglimitations:(1)theclusteringofeachensemblesuf-fersfromthecurseofdimensionality;(2)itneedsfindcommonalgorithmsandparameters;(3)itneedsobtaindifferentviewsfromtheoriginaldatasets;(4)thereisnoeffectiveconsensusbetweenthe7、hardandsoftpartitioningadoptedbybaseclustering;(5)theintegrationresultsarehighlyprobabletocontainredundantandinterferenceinformation.Thisthesisproposestwoeffectiveclusteringensemblemethodstosolvetheabovelim-itations.ThefirstmethodisSoftSubspaceClusteringEnsemblebasedonLatentModel(SS-C8、ELM).
2、à8:«¥Ô“x7èN8xÜoxß"#_à8úåºßx! ¹Ûá¯a8ºhx(!¬¤£¦ý§-°·8(µ°ýãĆ°·8(µ°x7¥+V78TWÐsxx7¥+°·8µ°ãĆud5d8'8Ė´«¥ud8ĄT«¥1òz®«¥1gĕT«¥1ĖQ«¥摘要聚类集成是一种将不同聚类结果或者聚类模式进行集成共识的方法,能获得比单一聚类算法更好的鲁棒性、稳定性和准确性。针对聚类集成的研究现状,其方法体系
3、仍不够成熟,具有以下局限性:(1)在高维数据集中,每个集成单元的基聚类仍会面临维度灾难,无法发挥基聚类的优势;(2)需要寻找通用的算法和参数;(3)如何从原始数据集中获取不同的视图;(4)集成中的基聚类主要采用硬划分或软划分聚类,并没有将两者的划分信息进行有效的融合处理;(5)集成过程中会产生冗余干扰的聚类结果。针对以上的局限性,本论文提出两种有效的聚类集成方法。第一种是基于潜在模型的软子空间聚类集成方法;该方法通过Jensen-Shannon散度描述数据属性的分布特点,并结合模糊理论构造软子空间,在低维子空间中能提升基聚类性能以及集成中的结果多样性;随后通过集成
4、概率潜在语义分析模型,构造概率属性矩阵,利用潜在因子分析方法,获得概率因子,强化类别概率。第二种是基于自适应三支决策的随机子空间混合聚类集成方法;通过随机子空间和随机参数双重随机方法解决高维空间问题以及保证集成中的结果多样性;融合硬划分和软划分聚类信息,构造粗糙集中的三支决策体系,结合聚类有效性指标混合策略,使用三支决策体系中的等价关系自适应地减少冗余干扰信息,加强聚类边界的稳定性。本文通过18个公共数据集将提出的两种方法与当前主流的聚类集成方法进行实验对比。基于潜在模型的软子空间聚类集成方法在属性差异明显的数据集上能达到很好的聚类效果。基于自适应三支决策的随机子
5、空间混合聚类集成方法能在大部分数据集中表现出很好的聚类性能,具有泛化性,并通过非参数检验方法,其聚类性能在统计学上表现出显著的优越性。因此,本论文提出的聚类集成方法有利于提高数据分析中的聚类性能,为大数据的知识挖掘提供可靠的保证。关键词:集成学习;子空间;模糊理论;混合聚类;三支决策IAbstractClusteringensemblefocusesonintegratingdifferentclusteringresultsorclusteringmod-els.Althoughclusteringensembleobtainsbetterrobustness,
6、stabilityandaccuracythansingleclusteringalgorithms,ithasthefollowinglimitations:(1)theclusteringofeachensemblesuf-fersfromthecurseofdimensionality;(2)itneedsfindcommonalgorithmsandparameters;(3)itneedsobtaindifferentviewsfromtheoriginaldatasets;(4)thereisnoeffectiveconsensusbetweenthe
7、hardandsoftpartitioningadoptedbybaseclustering;(5)theintegrationresultsarehighlyprobabletocontainredundantandinterferenceinformation.Thisthesisproposestwoeffectiveclusteringensemblemethodstosolvetheabovelim-itations.ThefirstmethodisSoftSubspaceClusteringEnsemblebasedonLatentModel(SS-C
8、ELM).
此文档下载收益归作者所有