欢迎来到天天文库
浏览记录
ID:30829877
大小:50.89 KB
页数:4页
时间:2019-01-03
《数据挖掘层次聚类算法研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘层次聚类算法研究综述摘要聚类问题是数据挖掘中的重要问题之一,是一种非监督的学习方法。分层聚类技术在图像处理、入侵检测和牛物信息学等方而有着极为重要的应用,是数据挖掘领域的研究热点z—。本文总结了分层聚类算法技术的研究现状,分析算法性能的主要差异,并指出其今后的发展趋势。关键词层次聚类,数据挖掘,聚类算法ReviewofhierarchicalclusteringalgorithminDataMiningAbstractClusteringproblemofdataminingisoneofimportantissues,itisa
2、kindofunsupervisedlearningmethods.Stratifiedclustertechnologyinimageprocessing,intrusiondetectionandbioinformaticshasextremelyimportantapplicationandisdataminingareaofresearchoneofthehotspots・Thispapersummarizesthelayeredclusteringalgorithmtechnologyresearch,analyzesthema
3、indifferencearithmeticperformance,andpointedoutthefuturedevelopmenttrend.KeywordsHierarchicalclustering,Datamining,Clusteringalgorithm1引言随着计算机技术的发展,信息数据越来越多,如何从海量数据中提収对人们有价值的信息已经成为一个非常迫切的问题。由此产生了数据挖掘技术,它是一门新兴的交叉学科,汇集了来白机器学习、模式识别、数据库、统计学、人工智能等各领域的研究成果。聚类分析是数据挖掘屮的一个重要研究领域。它
4、在图像处理、入侵检测和生物信息学等方面有着极为重要的应用。数据挖掘是从大虽数据中提取出可信、新颖、冇效并能被人理解的模式的高级处理过程。其口标是从数据库中发现隐含的、有意义的知识。聚类分析作为一个独立的工具來获得数据分布的情况,是数据挖掘的一个重要研究分支。在数据挖掘领域,研究工作己经集屮在为人型数据库的有效和实际的聚类分析寻找适当的方法。活跃的主题集中在聚类方法的对伸缩性,方法对聚类复杂形状和类型的数据的有效性,高维聚类分析技术,以及针对大型数据库中混合数值和分类数据的聚类方法。迄今为止,人们己经提出了很多聚类算法,它们可以分为如下儿类
5、:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法,这些算法対于不同的研究対象各有优缺点。在聚类算法当屮,划分方法和层次方法是最常见的两类聚类技术,具屮划分方法具有较高的执行效率,而层次方法在算法上比较符合数据的特性,所以相对于划分方法聚类的效果比较好。山层次聚类算法和基于划分的K-Means聚类算法是实际应用中聚类分析的支柱,算法简单、快速而H•能冇效地处理大数据集。层次聚类方法是通过将数据组织为若十组并形成一个相应的树來进行聚类的。根据层是自底而上还是白顶而下形成。一个完全层次聚类的质量由于无法对己经做的合并或分解进
6、行调整而受到影响。但是层次聚类算法没有使用准则函数,它所潜含的对数据结构的假设更少,所以它的通用性更强。2基于层次的聚类算法2.1凝聚的和分裂的层次聚类层次聚类是聚类问题研究中一个重要的组成部分。分层聚类的基本原则对以表述为:如果输入n个数据点(或数集),我们定义n个数簇,其中毎个簇含一个数据。确定距离(簇与簇Z间的距离可以通过很多的方法來定义,最常川的是单连接度量。其定义两个簇Z间的距离为一个簇中所有成员与另一簇中所有成员之间的最短距离。)层次化聚类算法可以进一步地分为两类:凝聚和分裂。凝聚算法:在每层选择两个最相似的簇被合并,合并后的
7、簇在更高层参与类似的合并。分裂算法:它首先把整个数据集看成一个簇,然后依据数据集的特性在每一层分成越来越小的簇。非层次化方法的聚类算法也有很多,其中,K-Means算法是最经典的,还有K-Means的变种。层次化聚类算法就是将数据对彖组成一棵聚类的树。根据层次分解是口底向上生成述是顶向下生成,层次的聚类方法可以细分为凝聚的和分裂的层次聚类。凝聚的层次聚类:凝聚的层次聚类是口底向上的策略。首先将每个对彖作为一个类,然后合并这些原子类为越來越大的类,直到所有的対象都在一个类中,或者某个终结条件被满足。分裂的层次聚类是种自顶向下的策略与凝聚的层
8、次聚类相反,它首先将所有对象置于一个类中,然后逐渐细分为越来越小的类,直到每个对彖口成一类,或者达到了某个终结条件,例如达到了某个希望的类数冃,或者两个最近的类Z间的距离超过了某个闽值。绝人多
此文档下载收益归作者所有