欢迎来到天天文库
浏览记录
ID:42654313
大小:57.83 KB
页数:9页
时间:2019-09-19
《聚类算法综述》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、学术型硕士课程论文(或读书报告)课程名称:科技论文写作题目:数据挖掘中聚类算法的综述题目类型(课程论文或读书报告):课程论文学院:计算机科学与工程学院专业名称:计算机科学与技术姓名:王银学号:2015200619任课教师:潘地林授课时间:2015年9月6日~2015年11月7日提交时间:2015年12月10日数据挖掘中聚类算法的综述王银(安徽理工大学计算机科学与工程学院,安徽) 摘要:聚类是数据挖掘中用来发现数据分布和隐含模式的一项重要技术。本综述按照聚类算法的分类,对每一类中具有代表性的算法进行介绍,分析和评价。最后从发现聚类形
2、状、所适用的数据库和输入数据顺序的敏感性等方面进行了算法推荐,以便对聚类算法作进一步的研究。关键词:数据挖掘;聚类分析;聚类算法 ReviewofClusteringAlgorithminDataMiningAbstract:ClusteringisanimportanttechnologyinDataMiningtodiscoverydatadistributionandimplicitmodel.theclassificationofclusteringalgorithmswasproposedinthispaper.Each
3、classhasarepresentativealgorithmisintroduced,analysisandevaluation.Intheend,itissuggestedthatthealgorithmcanbeusedtofurtherstudytheclusteringalgorithm,whichisbasedontheshapeofthediscovery,thedatabaseandtheorderofinputdata.Keywords:DataMining;Clusteringanalysis;Cluster
4、ingAlgorithm1引言随着信息技术和计算机技术的迅猛发展,人们面临着越来越多的文本、图像、视频以及音频数据,为帮助用户从这些大量数据中分析出其间所蕴涵的有价值的知识,数据挖掘(DataMining,DM)技术应运而生。所谓数据挖掘,就是从大量无序的数据中发现隐含的、有效的、有价值的、可理解的模式,进而发现有用的知识,并得出时间的趋向和关联,为用户提供问题求解层次的决策支持能力。与此同时,聚类作为数据挖掘的主要方法之一,也越来越引起人们的关注。聚类就是利用计算机技术来实现这目的的一种技术。其输入是一组未分类的记录,且事先不知
5、道如何分类,也可能不知道要分成几类,通过分析数据,合理划分记录集合,确定每个记录所属的类别,把相似性大的对象聚集为一个簇。聚类的标准是使簇内相似度尽可能大、簇间相似度尽可能小。典型的聚类过程主要包括数据准备、特征选择和特征提取、接近度计算、聚类(或分组)、对聚类结果进行有效性评估等[7]步骤。聚类过程:(1)数据准备:包括特征标准化和降维。(2)特征选择:从最初的特征中选择最有效的特征,并将其存储于向量中。(3)特征提取:通过对所选择的特征进行转换形成新的突出特征。(4)聚类(或分组):首先选择合适特征类型的某种距离函数或构造新的
6、距离函数进行接近程度的度量,然后执行聚类或分组。(5)聚类结果评估:是指对聚类结果进行评估。评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。2聚类算法的分类聚类属于无监督学习,它是一种常见的数据分析工具,其目的是把大量数据点的集合分成若干类,使得每个类中的数据之间最大程度地相似,而不同类中的数据最大程度地不同。在多媒体信息检索及数据挖掘的过程中,聚类处理对于建立高效的数据库索引、实现快速准确的信息检索具有重要的理论和现实意义。本文将聚类算法分为划分聚类算法、层次聚类算法、基于密度的聚类算法、基于网格的聚类算法以及基
7、于模型的聚类算法。2.1划分聚类算法给定一个包含n个样本的数据对象的数据集,构建数据的k个划分(k≤n),每个划分表示一个聚类。要满足每个类至少包含一个对象、每个对象属于且仅属于一个类这两个条件。创建一个划分的数目为k的初始划分,然后采用一种迭代的重定位技术,通过反复迭代来改进划分,直到满足一个最优的划分。一个好的划分的一般准则是:在同一类中的对象之间尽可能“相似”,不同类中的对象之间尽可能“相异”[4]。其代表算法有K-means、K-medoids[5]、大型数据库划分方法(CLARANS)等。很多算法都是由这三个算法改进而来
8、的,为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。2.2层次的聚类算法层次法对给定的数据对象集合像树一样进行层次似的分解,形成一棵聚类树。按层次分解的形成方式自底向上还是自顶向下,层次法可分为凝聚和分裂两大类
此文档下载收益归作者所有