欢迎来到天天文库
浏览记录
ID:36426518
大小:133.50 KB
页数:7页
时间:2019-05-10
《数据挖掘中常用聚类分析技术方法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据挖掘中聚类分析的技术方法汤效琴戴汝源摘要:数据挖掘是信息产业界近年来非常热门的研究方向,聚类分析是数据挖掘中的核心技术。本文对数据挖掘领域的聚类分析方法及代表算法进行分析,并从多个方面对这些算法性能进行比较,同时还对聚类分析在数据挖掘中的几个应用进行了阐述。关键词:数据挖掘;聚类分析;聚类算法TechniqueofClusteranalysisinDataminingTangXiaoqinDaiRuyuan(ComputerCenterNingxiaUniversity,Yinchuan750021,China)Abstract:DataMiningisoneofthep
2、opresearchininformationindustrylastfewyears.ClusteranalysisisthecoretechniqueofDataMining.ThispaperanalyzestheclusteranalysismethodandrepresentationclusteralgorithmintheareaoftheDataMining,andcomparesthealgorithmcapability.AndalsoexpatiatetheapplicationoftheclusteranalysisinDataMining.Keywo
3、rds:DataMining;Clusteranalysis;Clusteralgorithm0引言数据挖掘(DataMining)是指从存放在数据库、数据仓库或其他信息库中的大量数据中提取隐含的、未知的、有潜在应用价值的信息或模式的过程。数据挖掘涉及多学科技术,包括数据库技术、统计学、机器学习、高性能计算、模式识别、神经网络、数据可视化、信息检索、图像与信号处理和空间数据分析。被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。数据挖掘的根本在于统计学,统计方法中多元数据分析的三大方法之一的聚类分析则是数据挖掘采用的核心技术,成为该研究领域中一个非常
4、活跃的研究课题。聚类分析基于“物以类聚”的朴素思想,根据事物的特征对其进行聚类或分类。本文对数据挖掘领域的聚类分析方法及代表算法进行分析,并从多个方面对常用算法的性能面进行分析比较。最后阐述了聚类分析在数据挖掘中的应用。1数据挖掘领域中聚类算法的分类聚类算法大体可以划分为以下几类:划分方法、层次方法、基于密度的方法、基于网格的方法和基于模型的方法。1.1划分方法(partitioningmethod)给定一个包含n个数据对象或元组的数据库,一个划分方法构建数据的c个划分,每个划分表示一个簇,且c≤n。通常会采用一个划分准则(经常称为相似度函数),例如距离,以便在同一个簇中的对
5、象是“相似的”,在不同簇中的对象是“相异的”。这些聚类方法对在中小规模的数据库中发现球状簇很适用。为了对大规模的数据集进行聚类,以及处理复杂形状的聚类,基于划分的方法需要进一步的扩展。1.2层次方法(hierarchicalmethod)层次方法对给定数据对象集合进行层次的分解。根据层次分解是自底向上还是自顶向下形成,层次聚类的方法可以进一步分为凝聚的和分裂的。层次聚类方法的缺陷在于,一旦一个步骤(合并或分裂)完成,它就不能被撤消,因此而不能更正错误的决定。改进层次方法的聚类质量的一个有希望的方向是将层次聚类和其他聚类技术进行集成,形成多阶段聚类。1.3基于密度的方法(den
6、sity-basedmethod)提出了基于密度的聚类方法是为了发现任意形状的聚类结果。其主要思想是:只要临近区域的密度超过某个阈值,就继续聚类。这样的方法可以用来过滤“噪声”孤立点数据,发现任意形状的簇。1.4基于网格的方法(grid-basedmethod)基于网格的聚类方法采用一个多分辨率的网格数据结构。把对象空间量化为有限数目的单元,形成了一个网格结构。所有的聚类操作都在这个网格结构上进行。这种方法的主要优点是它的处理速度很快,其处理时间独立于数据对象的数目,只与量化空间中每一维的单元数目有关。1.5基于模型的方法(model-basedmethod)基于模型的方法为
7、每个簇假定了一个模型,寻找数据对给定模型的最佳拟合。基于模型的算法可能性通过构建反映数据点空间分布的密度函数来定位聚类。这种聚类方法试图优化给定的数据和某些数学模型之间的适应性。2.数据挖掘领域中常用的聚类算法2.1CLARANS算法(随机搜索聚类算法)划分方法中最早提出的一些算法大多对小数据集合非常有效,但对大的数据集合没有良好的可伸缩性,如PAM。CLARA是基于C-中心点类型的算法,能处理更大的数据集合。CLARA算法不考虑整个数据集合,而是随机的选择实际数据的一小部分作为样本,然后用PAM方法从
此文档下载收益归作者所有