聚类分析中若干关键技术的研究

聚类分析中若干关键技术的研究

ID:33751375

大小:3.00 MB

页数:114页

时间:2019-02-28

聚类分析中若干关键技术的研究_第1页
聚类分析中若干关键技术的研究_第2页
聚类分析中若干关键技术的研究_第3页
聚类分析中若干关键技术的研究_第4页
聚类分析中若干关键技术的研究_第5页
资源描述:

《聚类分析中若干关键技术的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、浙江大学博士学位论文摘要基于数据库的知识发现(KnowledgeDiscoveryinDatabase,简称KDD)是指从大量数据中提取有效的、新颖的、潜在有用的和最终可被理解的模式的非平凡过程。它是一个反复迭代的人机交互处理过程,该过程需要经历多个步骤,主要包括数据整理、数据挖掘(DataMining)和结果的解释评估。其中数据挖掘是整个KDD过程中最核心的步骤,数据挖掘的目的就是运用特定的数据挖掘算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来,如树、表、规则、图等。聚类分析是数据挖掘的最主要的功能之一,聚类就是将数据对象分组为

2、多个类或簇,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。本文将重点研究聚类分析中的若干关键技术和算法。在第一章中,首先就数据挖掘进行概述,主要讨论数据挖掘的产生、发展以及数据挖掘算法可以实现的功能,主要包括:类/概念描述、关联规则、分类与回归、聚类分析、序列与时序分析以及孤立点分析等。最后给出了本文研究的主要内容和组织结构。在第二章中,首先介绍了聚类分析的定义,聚类算法的基本要求,以及聚类中用到的主要数据类型:然后讨论了聚类分析的各种算法:划分方法、层次方法、基于密度的方法、基于网格的方法以及基于模型的方法;最后对聚类算法

3、的应用领域进行了探讨。第三章介绍了模糊集合的基本概念,模糊集合的运算,模糊截集及分解定理,在此基础上,研究了基于模糊关系的模糊聚类及其算法,通过应用FCM算法的实例解释了模糊聚类的应用。第四章重点研究了高斯混合模型的聚类算法,除了介绍经典的EM算法以外,还讨论了GMDD算法。由于在某些领域,为了更准确地识别出不同性质的数据,人们会根据经验利用加权函数以获得更好的聚类效果,本文以加权似然方程为基础提出了加权GMDD算法。通过对GMDD算法及加权GMDD算法的研究分析,指出了它们存在的可能无法有效收敛的现象,并提出了一种基于划分的解决方法,该方法通

4、过GMDD聚类与普通划分交叉进行,从而有效避免了由于对称性等原因引起的无法收敛的情况,最后通过仿真实验验证了该方法的有效性。第五章研究了切换回归模型的聚类算法。首先介绍了硬c一划分算法和模糊c一回归模型算法,分别讨论了它们各自的优缺点,然后在此基础上提出了模糊闽值(fuzzythreshold)的概念。通过对每个数据的隶属度与模糊阈值的比较来确定该数据的模糊属性,由此可以将硬c一划分算法和模糊c一回归模型算法有机地统一起来,并通过调节模糊阈值的大小使算法满足不同的实际应用的需要。实验表明,模糊阈值的引入增强了对切换回归模型聚类的效率。本文还提出

5、了两种解决切换回归模型聚类中噪音问题的方法。一种是以已有的聚类算法为基础,通过对其聚类结果不断的修正来消除噪音数据的影响;另一种是基于影响函数的聚类算法,通过影响函数来修正每个数据对应的隶属度,从而达到消除噪音数据影响的效果。同时分别通过实验证明了这两种方法对噪音数据的处理效果。第六章对论文进行了总结,介绍了本文的主要内容及主要贡献,并对进一步的研究和需要完善的问题提出了看法。关键词数据挖掘,聚类分析,模糊聚类,高斯混合模型,切换回归模型,噪音浙江大学博士论文AbstractKnowledgeDiscoveryinDatabase(KDD)is

6、aspecialprocessinvolvingseveralsteps,whichincludeofdatacleansing,datamining,andknowledgepresentation,toextractvalid,novel,usefulpotentiallyandunderstandableultimatelyknowledgeorpatternsfi'omdatabasebyusingoflearningalgorithm.Itisaniterativeprocessofman-machineconversation.Da

7、taminingistheessentialstepofKDD,whereintelligentmethodsareappliedinordertoextractdatapatterns,explainandvisualizedataminingresultsbyknowledgerepresentationtechniques,suchastrees,tables,rules,graphs.Clusteranalysisisoneofthemostimportantfunctions,andclusteringistheprocessofgr

8、oupingasetofphysicalorabstractobjectsintoclassesofsimilarobjects.Aclusteris

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。