欢迎来到天天文库
浏览记录
ID:13289481
大小:1.16 MB
页数:76页
时间:2018-07-21
《数据挖掘中聚类集成与半监督聚类研究》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、国内图书分类号:TP301.6密级:公开国际图书分类号:681.14西南交通大学研究生学位论文数据挖掘中聚类集成与半监督聚类研究年级二〇〇七级姓名谭维申请学位级别硕士专业计算机应用技术指导老师杨燕教授二零一零年五月ClassifiedIndex:TP301.6U.D.C:681.14SouthwestJiaotongUniversityMasterDegreeThesisRESEARCHONCLUSTERINGENSEMBLEANDSEMI-SUPERVISEDCLUSTERINGINDATAMININGGrade:200
2、7Candidate:TanWeiAcademicDegreeAppliedfor:MasterSpeciality:ComputerApplicationSupervisor:Prof.YangYanMay,2010西南交通大学学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权西南交通大学可以将本论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复印手段保存和汇编本学位论文。本学位论文
3、属于1.保密□,在年解密后适用本授权书;2.不保密□,使用本授权书。(请在以上方框内打“√”)学位论文作者签名:指导老师签名:日期:日期:西南交通大学硕士学位论文主要工作(贡献)声明本人在学位论文中所做的主要工作或贡献如下:(1)详细介绍了聚类集成的相关原理和概念,从聚类成员的生成和共识函数设计两个方面进行了重点分析。对自组织特征映射神经网络和聚类综合质量进行了深入介绍,提出了一种基于自组织特征映射的聚类集成算法。该算法首先根据差异性聚类成员把原始数据集转换到一个新特征空间矩阵,然后引入聚类综合质量对新特征空间矩阵属性进行
4、加权,最后用SOM算法作为共识函数进行聚类。实验结果表明,该算法能有效地提高聚类质量,并取得了与其他聚类集成算法同等或更优的聚类性能。(2)对半监督聚类的原理、概念和先验知识的类型做出了详细的研究和探讨,并重点分析了Cop-Kmeans算法的原理。针对Cop-Kmeans算法出现约束违反现象以及算法性能依赖于样本分配顺序的不足,提出了改进算法ICop-Kmeans,同时提出样本确定度的定义,并按样本确定的大小排序产生了一组确定的样本分配顺序。最后,给出了一种基于成对约束的半监督自组织特征映射算法。通过实验结果分析得出,改进
5、的ICop-Kmeans算法能够有效地处理约束违反现象,使用产生的确定样本分配顺序的ICop-Kmeans算法较使用随机样本分配顺序的ICop-Kmeans算法聚类效果更好。此外,融合先验知识的SOM算法较好改善了无监督SOM算法的聚类质量,并且作为共识函数对ICop-Kmeans算法产生的划分结果集成后,相比集成前聚类性能得到提升。本人郑重声明:所呈交的学位论文,是在导师指导下独立进行研究工作所得的成果。除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的研究成果。对本文的研究做出贡献的个人和集体
6、,均已在文中作了明确说明。本人完全了解违反上述声明所引起的一切法律责任将由本人承担。学位论文作者签名:日期:西南交通大学硕士研究生学位论文第V页摘要在数据挖掘领域,聚类分析作为一种重要的方法,能够发现数据对象自然的分布结构。通过一种事先给定的相似性测度方式,所有的数据对象被分割成若干不连续的组,并保证同一组数据的相似性更大,不同组数据的相似性更小。传统的聚类算法是一种无监督方法,它按照不同的优化准则对数据进行分割,没有考虑用户或真实世界提供的任何先验知识。尽管目前许多新型或改进的算法被提出,但仍然难以找到一种单一的算法可以
7、探索各种数据对象分布结构。为了提高无监督聚类算法的性能,聚类集成技术和半监督聚类技术应运而生。受分类集成技术的启示,聚类集成作为当今的研究热点已被证明能有效地提高传统聚类算法的性能。它综合多种不同聚类算法或不同初始参数的同一聚类算法产生的划分,可获得比单一聚类算法更好的聚类结果。共识函数的设计是聚类集成最关键的问题,也是目前研究的重点。本文提出一种基于自组织特征映射(SOM)的聚类集成算法。该算法首先利用多个具有差异性的聚类成员,将原始数据集转换成一个新的特征空间矩阵,然后计算各个聚类成员的聚类综合质量,并将其作为新特征空
8、间矩阵的属性权重,最后利用SOM神经网络进行集成,产生最终的共识聚类结果。实验结果表明,与集成前的基聚类算法和其他聚类集成算法的结果相比较,该算法能够有效提高聚类质量。半监督聚类利用诸如种子集或成对约束等先验知识获得更好的聚类结果。相比于无监督聚类分析,半监督聚类利用提供的少量监督信息协助指导聚类过程。
此文档下载收益归作者所有