聚类集成关键技术研究

聚类集成关键技术研究

ID:32212533

大小:4.00 MB

页数:140页

时间:2019-02-01

聚类集成关键技术研究_第1页
聚类集成关键技术研究_第2页
聚类集成关键技术研究_第3页
聚类集成关键技术研究_第4页
聚类集成关键技术研究_第5页
资源描述:

《聚类集成关键技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学计算机学院博士学位论文聚类集成关键技术研究姓名:罗会兰申请学位级别:博士专业:计算机科学与技术指导教师:孔繁胜20071029浙江大学博士学位论文摘要集成学习(EnsembleLearning)是指利用多个学习机解决一个问题。90年代中期开始,集成学习逐渐成为机器学习中最热门的研究领域之一。集成学习早期的研究都集中在监督式学习中,而对非监督式学习,或者说聚类集成的研究直到近年来才逐渐受到重视,本文针对聚类集成技术中的几个关键问题进行了研究,取得的创新性研究成果有:(1)对基于数学形态学的聚类集成算法进行了研究。首先提出了一种基于数学形态学的聚类分析算

2、法COHMMOP,它将用于图像处理的方法引入聚类分析,得到了理想的效果。然后基于此研究结果之上,提出了基于数学形态学的聚类集成算法CEOMM,它利用不同的结构元素的探针作用,对不同的结构元素探测出来的簇核心进行集成,在集成所得到的簇核心基础上聚类。实验结果表明COHMMOP能对具有复杂形状且类间隔很小的数据集进行聚类。由于采用了不同的结构元素进行探测,算法CEOMM对于由不同形状的类构成的数据集,比只使用一种结构元素进行探测更理想。(2)对聚类集体的差异性度量进行了研究,基于分类集成中的一些度量提出了四种聚类集体差异性度量。实验结果表明各种差异性度量与集成准

3、确度之间并没有严格的单调正相关关系,影响这种相关性的因素很多,在不同的平均成员准确度情况下,不同的集体大小情况下,不同的数据分布情况下和不同的集成方法情况下,这种相关性都不同。但是实验结果也表明当平均聚类成员准确度高于0.6,集体大小为15到20左右,待聚类数据集有均匀簇分布时,各种差异性度量与集成方法性能问的相关程度很高。并且在比较不同的集成算法在同一个聚类集体上的集成性能时,发现与差异性度量相关系数更高的集成算法,集成性能也更好。(3)对聚类集体的生成进行了研究,提出了基于添加人工噪声数据的构造差异性聚类集体的方法CEAN。在此基础上,进一步提出了增强型

4、差异性聚类集体构造算法ICEAN,它首先用CEAN产生一个比较大的集体,然后对此集体进行浙江大学博士学位论文摘要聚类并从中选择出差异成员构成一个更小但差异性更大的聚类集体。实验证明CEAN和ICEAN产生的聚类集体的差异性很高。(4)对聚类集体的集成(也称为一致性函数)进行了研究。提出了聚类集成算法CMCUGA,它首先基于信息理论构造了评价与聚类集体统一程度的准则函数,从而将聚类集成问题转化成了优化问题,然后使用经典遗传算法来找到这个与聚类集体最统一的聚类结果。CMcuGA集成算法容易理解,而且它借用成熟的遗传算法来达到集成目的,不容易陷于局部最优点。实验证

5、明CMCUGA集成算法的性能比较理想。还通过把聚类集体当成一个概念型数据集,应用概念型数据聚类算法k-modes和LIMBO来进行聚类集成。实验结果证明用概念型聚类算法进行集成,效果还是比较好的,特别是用LIMBO集成的效果相当理想。(5)提出了基于集成技术的混合数据聚类算法CBEST。它利用聚类集成技术产生混合数据的相似性矩阵,基于此相似性矩阵,应用谱聚类算法得到混合数据聚类结果。实验证明它对混合型数据聚类的效果相当不错,对噪声的鲁棒性也较好,并且它能有效融合进先验知识。关键词;聚类,集成学习,聚类集成,差异性,度量,数学形态学,混合型数据聚类,概念型数据

6、聚类,人工数据浙江大学博士学位论文AbsttaetAbstractEnsembleLearningiscombiningmultiplelearnedmodelstosolveaproblem.Sincethemid-1990s,ensemblelearninghasgraduallybecomethemostpopularresearchdirectioninmachinelearning.Early,ensemblelearninghasfocusedonthesupervisedlearning.Tillthelastfiveyearstherehas

7、beenalotofactivityinclusteringensembleresearch.Thekeytechnologiesofclusteringensemble勰investigatedinthisdissertation,andthemaincontributionsofthisdissertationaresummarizedasfollows:Firstly,anewclusteringapproachnamedC0mvIMOPisproposed,whichisbasedontheuseofmathematicalmorphologyope

8、rations.Throughthealgorith

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。