欢迎来到天天文库
浏览记录
ID:32959836
大小:63.82 KB
页数:7页
时间:2019-02-18
《数据挖掘中聚类研究综述》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据挖掘中聚类研究综述摘要:数据挖掘中的聚类技术是一种非监督分类技术。概述了聚类分析算法中的数据结构和数据类型,分析了聚类分析的意义及研究现状,比较了几种聚类算法的优点及问题,并结合通信领域的应用指出了K-Means聚类技术的绝对优势。Abstract:Theclusteringtechnologyindataminingisakindofunsupervisedclassificationtechniques.Thepaperanalysesthedatastructureanddatatypes
2、ofclusteringanalysisalgorithm,thesignificaneeandresentresearchofclusteranalysis,comparestheadvantagesanddisadvantagesofseveralkindsofclusteringalgorithm,pointsouttheabsoluteadvantagesofK-Meansclusteringtechnologycombinedwiththeapplicationincommunicatio
3、nfeild・关键词:数据挖掘;聚类分析;K-Means算法Keywords:datamining;clusteringanalysis;K-Meansalgorithm中图分类号:TP274文献标识码:A文章编号:1006-4311(2014)15-0226-020引言数据挖掘,也称知识发现数据库(KDD)[1],就是从实际的大量的、不完全的,含有噪声的数据中去提取出人们事先不知道的、隐含在其中的对人们有用的知识和信息的过程。数据挖掘经常被企业决策者利用,通过挖掘企业中存储的大量数据中的潜在的有价
4、值的信息,从而帮助企业经营者做出正确的决策,为企业创造更多的利益。聚类技术作为数据挖掘的的重要技术之一,也更多的为人们认识和使用。本文分析了几种主要的聚类算法的优点及存在的问题,并指出K-Means[2]聚类技术在通信领域的绝对优势。1聚类的定义聚类分析[3]仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组。其目标是,组内的对象相互之间是相关的,而不同组的对象是不相关的,组内相似度越大,组间差别度越大,聚内效果就越好。聚类分析技术作为强大的辅助工具在科学研究、社会服务、市场营销等多个领域发
5、挥了巨大的作用。因此聚类分析技术研究也成为一个热点课题。2聚类分析算法中的数据结构和数据类型2.1数据结构一般聚类分析中的数据用以下两种数据结构来表示:①数据矩阵对象-属性结构组成了数据矩阵。它由n个对象组成,例如:人;用P个属性来描述每个对象,例如:身高、体重、出生日期等。可以使用nXP矩阵或关系表的形式来表示数据矩阵,如式(1)所示。■(1)②相异度矩阵相异度矩阵是一个对象-对象结构。它包含n个对象互相之间差异。我们一般用nXn矩阵来表示相异度矩阵,如式(2)所示。■(2)2.2数据类型在实际应
6、用中,数据挖掘任务面对的更多的是非数值型数据对象以及复合数据类型,数据复杂且多样化,布尔类型、有序数据类型、分段数值变量、标称型变量、二元、序数型以及混合型组合变量和比例型变量等都是在数据挖掘中常常会遇到的数据类型变量。3主要的聚类算法目前,在数据挖掘中聚类的算法主要可分为以下几种:划分算法、层次方法、基于密度的算法、基于模型的方法以及基于网格的方法。下面将详细列出几种算法,并予以简单的介绍和分析。3.1划分方法所谓划分方法就是将包含有n个数据对象的数据集合分为m个组,其中每个组都是一个聚类,从定义
7、可以看出,这种聚类要满足以下两点:①每个分组至少要包含一个一个数据对象;②每个数据对象只能归属在一个分组当中,不能出现一个数据对象同时归属几个分组的情况,使用反复迭代的方法进行分组效果会更佳。最终在计算时,使得每次改进后的分组方案较之前一次都更胜一筹,同一分组当中,各个数据对象越近越好,而一些部分的算法应用对于条件②的限制可以适当放宽一些。在聚类算法中,k-平均(k-means)算法和k-中心点(k-medoids)算法是最重要的两种算法,除此之外的其他类型的划分方法都是在它们的基础上演化而来的。3
8、.2层次方法层次聚类算法将数据集进行层次分解。分为自下向上凝聚的(agglomerative)层次聚类和自上向下的分裂法(divisive)层次聚类两种。凝聚的层次聚类将每个数据对象单独分成一个组,再逐步合并分组达到终止函数的限制。分裂法层次聚类,先将所有数据对象放到一个分组中,然后再渐渐划分为小的分组,直到达到了某个终止条件。常用的层次聚类方法包括BIRCH,CURE,ROCK,Chameleon算法等。3.3基于密度的方法目前,对于非球形数据集的聚变来说,基于距离
此文档下载收益归作者所有