欢迎来到天天文库
浏览记录
ID:14657443
大小:3.26 MB
页数:75页
时间:2018-07-29
《基于模糊矩阵的聚类融合》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、南京理工大学硕士学位论文基于模糊矩阵的聚类融合姓名:朱萌申请学位级别:硕士专业:模式识别与智能系统指导教师:陆建峰20080601硕士论文基于模糊矩阵的聚类融合摘要聚类分析是在探索性数据分析领域尤其在数据挖掘和知识发现的一种重要方法,并且被成功应用于工程,生物学,心理学,药学,市场,等其他学科中。聚类通过抽象出数据中基本结构作为个体分组或者个体分层来组织数据。本文的主要工作是不仅在理论上并且通过matlab对比实验的方法详细分析研究了聚类融合算法,更重要的是提出了一种新的非常有效的聚类算法,这种聚类方法基于聚类融合。聚类融合是一个非
2、常强大的工具,可以大大提高非监督分类方法的健壮性以及稳定性。聚类融合的目的是弥补单个聚类算法的缺陷,因为所有单个聚类对原数据都有不同程度的依赖以及不同输入参数和初始化对算法都会产生影响。聚类融合算法的基本思想是通过运行多次聚类算法,这些算法可以是相同算法不同参数,初始值或者不同数据取样,也可以是不同算法,然后得到多次聚类的结果,一般是带有聚类标签的数据结构,聚类融合的任务是由这个数据结构产生最终的聚类分割,这一过程称为’’共识函数”。聚类融合和普通聚类算法的最大不同之处在于普通聚类的对象是数据集,考虑问题的要素是数据集的性质,而聚类
3、融合的对象是普通聚类算法产生的结果,考虑的问题摆脱了数据的分布而是如何最大化共享这些结构信息。聚类融合可以看作是对聚类算法进行的”聚类”。然而找到一个合适的共识函数是聚类融合中最大的难题,目前常用的共识函数有基于相似度矩阵,基于超图分割,相互信息,还有基于统计的方法。这些方法大部分都是利用聚类标签作为共识函数的输入,然而标签向量是硬划分聚类算法的结果,本文依据概率统计的基本原理,采用模糊聚类作为生成算法以及产生的模糊矩阵作为共识函数的输入。通过运行多次模糊聚类算法或者类似的软划分算法得到模糊矩阵,然后由数据点隶属度独立性假设,推导出
4、数据对象的先验概念密度,建立有限混合模型,并且利用EM算法估计出数据对象属于每一个模式的数学期望。本文提出的算法具有非常优良的聚类效果。本文做了大量的计算机实验旨在证明算法在不同数据分布上的有效性。实验采用了标准UCI机器学习数据集,结果表明了算法比别的融合算法聚类正确率更高。关键词:聚类,聚类融合,混合模型,EM算法,模糊聚类AbstractClusteranalysisisanimportantmethodinexploratorydataanalysisespeciallyinthefieldsuchasdatamininga
5、ndknowledgediscovery,andisbeingappliedinavarietyofengineeringandscientificdisciplinessuchasbiology,psychology,medicine,marketing.Clusteringanalysisorganizesdatabyabstractingunderlyingstructureeitherasagroupingofindividualsorasahierarchyofgroups.Themaintaskofthispaperis
6、todelveintotheclusteringensemblealgorithmindetailsnotonlystayingonthetheorybutalsodoingmanymattabexperiments,andmostlyimportantlycomeupwithaveryeffectiveandnovelmethodwhichisbasedontheclusteringensemble。clusteringensembleisverypowerfultool,greatlyimprovingthestabilitya
7、ndrobustnessoftheunsupervisedclassification.Clusteringensembleisaimatamelioratingsingleclusteringalgorithmdefect,becauseallsingleclusteringalgorithmassumesthatthedataareindifferentdistributionandtheoutcomeofalgorithmissensitivetothedifferentinputargumentsanddifferentin
8、itialization.Sothebasicideaofclusteringensembleistovanelusteringalgorithmmanytimewhichcanbesomealgorithmwithdifferent
此文档下载收益归作者所有