欢迎来到天天文库
浏览记录
ID:39640907
大小:658.50 KB
页数:71页
时间:2019-07-08
《聚类分析方法与应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据挖掘技术与应用陈燕教授第6章聚类分析方法与应用大连海事大学本章提纲聚类分析的基础理论6.1聚类分析的方法6.2应用聚类分析方法6.3小结6.46.1聚类分析的基础理论6.1.1聚类分析的定义6.1.2对聚类算法性能的要求6.1.1聚类分析的定义聚类(Clustering)是将数据划分成群组的过程。研究如何在没有训练的条件下把对象化分为若干类。通过确定数据之间在预先制定的属性上的相似性来完成聚类任务,这样最相似的数据就聚集成簇(Cluster)。聚类与分类不同,聚类的类别取决于数据本身,而分类的类别是由数据分析人员预先定义好的。使用聚类算法的用户不但需要深刻地了解所
2、用的特殊技术,而且还要知道数据收集过程的细节及拥有应用领域的专家知识。用户对手头数据了解地越多,用户越能成功的评估它的真实结构。6.1.1聚类分析的定义聚类分析方法可以应用在数据挖掘的各个过程之中,比如在数据预处理操作中,针对数据需求,对于数据结构简单或者是与运量分析有单属性和较少属性关联的数据可以在经过数据清理等预处理后直接整合入数据仓库。对于复杂结构的多维数据可以通过聚类的方法将数据聚集后构造出逻辑库,使复杂结构数据标准化,为某些数据挖掘方法(如关联规则、粗糙集方法)提供预处理。为了满足某些数据挖掘算法的需要,我们需要对连续的数据进行离散化处理,使条件属性和决策属
3、性值简约化、规范化。这时我们就需要对数据进行聚类处理。6.1.2对聚类算法性能的要求聚类就是将数据对象分组成为多个类或簇的过程,在同一个簇中的对象之间具有较高的相似度,而不同簇中的对象差别较大。相似度是根据描述对象的属性值来计算的。聚类是经常采用的度量方式。聚类分析源于许多研究领域,包括数据挖掘、统计学、生物学以及机器学习等。6.1.2对聚类算法性能的要求1.伸缩性这里的可伸缩性是指算法要能够处理大数据量的数据库对象,比如处理上百万条记录的数据库,这就要求算法的时间复杂度不能太高,最好是多项式时间的算法。值得注意的是,当算法不能处理大数据量时,用抽样的方法来弥补也不是
4、一个好主意,因为它通常会导致歪曲的结果。2.处理不同字段类型的能力算法不仅要能处理数值型的字段,还要有处理其他类型字段的能力。如布尔型、枚举型、序数型及混合型等。6.1.2对聚类算法性能的要求3.发现具有任意形状的聚类的能力很多聚类分析算法采用基于欧几里德距离的相似性度量方法,这一类算法发现的聚类通常是一些球状的、大小和密度相近的类,但可以想象,显示数据库中的聚类可能是任意形状的,甚至是具有分层树的形状,故要求算法有发现任意形状的聚类的能力。6.1.2对聚类算法性能的要求4.输入参数对领域知识的依赖性很多聚类算法都要求用户输入一些参数,例如需要发现的聚类数、结果的支持
5、度及置信度等。聚类分析的结果通常都对这些参数很敏感,但另一方面,对于高维数据,这些参数又是相当难以确定的。这样就加重了用户使用这个工具的负担,导致分析的结果很难控制。一个好的聚类算法应当针对这个问题,给出一个好的解决方法。6.1.2对聚类算法性能的要求5.能够处理异常数据现实数据库中常常包含有异常数据,例如数据不完整、缺乏某些字段的值,甚至是包含错误数据现象。有一些数据算法可能会对这些数据很敏感,从而导致错误的分析结果。6.结果对输入记录顺序的无关性有些分析算法对记录的输入顺序是敏感的,即对同一个数据集,将它以不同的顺序输入到分析算法,得到的结果会不同,这是我们不希望
6、的。6.1.2对聚类算法性能的要求7.处理高维数据的能力每个数据库或者数据仓库都有很多的字段或者说明,一些分析算法对处理维数较少的数据集时表现不错,但是对于高维数据的聚类分析就会稍显不足。因为在高维空间中,数据的分布是极其稀疏的,而且形状也可能是极其不规则的。6.1.2对聚类算法性能的要求8.增加限制条件后的聚类分析能力现实的应用中经常会出现各种各样的限制条件,我们希望聚类算法可以在考虑这些限制的情况下,仍旧有很好的表现。9.结果的可解释性和可用性聚类的结果最终都是要面向用户的,所以结果应该是容易解释和理解的,并且是可应用的。这就要求聚类算法必须与一定的语义环境及语义
7、解释相关联。领域知识如何影响聚类分析算法的设计是很重要的一个研究方面。6.2聚类分析的方法6.2.1基于划分的聚类方法6.2.2基于层次的聚类方法6.2.3基于密度的聚类方法6.2.4基于网格的聚类方法6.2.5基于模型的聚类方法6.2.1基于划分的聚类方法给定一个含有N个对象的数据集,以及要生成的簇的数目K。每一个分组就代表一个聚类,K
此文档下载收益归作者所有