数据挖掘原理、算法及应用第5章聚类方法

数据挖掘原理、算法及应用第5章聚类方法

ID:43968271

大小:6.80 MB

页数:286页

时间:2019-10-17

数据挖掘原理、算法及应用第5章聚类方法_第1页
数据挖掘原理、算法及应用第5章聚类方法_第2页
数据挖掘原理、算法及应用第5章聚类方法_第3页
数据挖掘原理、算法及应用第5章聚类方法_第4页
数据挖掘原理、算法及应用第5章聚类方法_第5页
资源描述:

《数据挖掘原理、算法及应用第5章聚类方法》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第5章 聚类方法5.1概述5.2划分聚类方法5.3层次聚类方法5.4密度聚类方法5.5基于网格聚类方法5.6神经网络聚类方法:SOM5.7异常检测5.1概  述聚类分析源于许多研究领域,包括数据挖掘、统计学、机器学习、模式识别等。它是数据挖掘中的一个功能,但也能作为一个独立的工具来获得数据分布的情况,概括出每个簇的特点,或者集中注意力对特定的某些簇作进一步的分析。此外,聚类分析也可以作为其他分析算法(如关联规则、分类等)的预处理步骤,这些算法在生成的簇上进行处理。数据挖掘技术的一个突出的特点是处理巨大的、复杂的数据集,这对聚类分析技术提出

2、了特殊的挑战,要求算法具有可伸缩性、处理不同类型属性、发现任意形状的类、处理高维数据的能力等。根据潜在的各项应用,数据挖掘对聚类分析方法提出了不同要求。典型要求可以通过以下几个方面来刻画。(1)可伸缩性:指聚类算法不论对于小数据集还是对于大数据集,都应是有效的。在很多聚类算法当中,数据对象小于几百个的小数据集合上鲁棒性很好,而对于包含上万个数据对象的大规模数据库进行聚类时,将会导致不同的偏差结果。研究大容量数据集的高效聚类方法是数据挖掘必须面对的挑战。(2)具有处理不同类型属性的能力:指既可处理数值型数据,又可处理非数值型数据,既可以处

3、理离散数据,又可以处理连续域内的数据,如布尔型、序数型、枚举型或这些数据类型的混合。(3)能够发现任意形状的聚类。许多聚类算法经常使用欧几里得距离来作为相似性度量方法,但基于这样的距离度量的算法趋向于发现具有相近密度和尺寸的球状簇。对于一个可能是任意形状的簇的情况,提出能发现任意形状簇的算法是很重要的。(4)输入参数对领域知识的弱依赖性。在聚类分析当中,许多聚类算法要求用户输入一定的参数,如希望得到的簇的数目等。聚类结果对于输入的参数很敏感,通常参数较难确定,尤其是对于含有高维对象的数据集更是如此。要求用人工输入参数不但加重了用户的负担,

4、也使得聚类质量难以控制。一个好的聚类算法应该对这个问题给出一个好的解决方法。(5)对于输入记录顺序不敏感。一些聚类算法对于输入数据的顺序是敏感的。例如,对于同一个数据集合,以不同的顺序提交给同一个算法时,可能产生差别很大的聚类结果。研究和开发对数据输入顺序不敏感的算法具有重要的意义。(6)挖掘算法应具有处理高维数据的能力,既可处理属性较少的数据,又能处理属性较多的数据。很多聚类算法擅长处理低维数据,一般只涉及两维到三维,人类对两、三维数据的聚类结果很容易直观地判断聚类的质量。但是,高维数据聚类结果的判断就不那样直观了。数据对象在高维空间的

5、聚类是非常具有挑战性的,尤其是考虑到这样的数据可能高度偏斜并且非常稀疏。(7)处理噪声数据的能力。在现实应用中,绝大多数的数据都包含了孤立点、空缺、未知数据或者错误的数据。如果聚类算法对于这样的数据敏感,将会导致质量较低的聚类结果。(8)基于约束的聚类。在实际应用当中可能需要在各种约束条件下进行聚类。既要找到满足特定的约束,又要具有良好聚类特性的数据分组是一项具有挑战性的任务。(9)挖掘出来的信息是可理解的和可用的。这点很容易理解,但在实际挖掘中往往不能令人满意。5.1.1聚类分析在数据挖掘中的应用聚类分析在数据挖掘中的应用主要有以下

6、几个方面:(1)聚类分析可以作为其他算法的预处理步骤。利用聚类进行数据预处理,可以获得数据的基本概况,在此基础上进行特征抽取或分类就可以提高精确度和挖掘效率。也可将聚类结果用于进一步关联分析,以进一步获得有用的信息。(2)可以作为一个独立的工具来获得数据的分布情况。聚类分析是获得数据分布情况的有效方法。例如,在商业上,聚类分析可以帮助市场分析人员从客户基本资料数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。通过观察聚类得到的每个簇的特点,可以集中对特定的某些簇作进一步分析。这在诸如市场细分、目标顾客定位、业绩估评、生物

7、种群划分等方面具有广阔的应用前景。(3)聚类分析可以完成孤立点挖掘。许多数据挖掘算法试图使孤立点影响最小化,或者排除它们。然而孤立点本身可能是非常有用的,如在欺诈探测中,孤立点可能预示着欺诈行为的存在。5.1.2聚类分析算法的概念与基本分类1.聚类概念定义5.1聚类分析的输入可以用一组有序对(X,s)或(X,d)表示,这里X表示一组样本,s和d分别是度量样本间相似度或相异度(距离)的标准。聚类系统的输出是对数据的区分结果,即C={C1,C2,…,Ck),其中Ci(i=1,2,…,k)是X的子集,且满足如下条件:(1)C1∪C2∪…∪Ck

8、=X;(2)Ci∩Cj=Ф,i≠j。C中的成员C1,C2,…,Ck称为类或者簇。每一个类可以通过一些特征来描述。通常有如下几种表示方式:·通过类的中心或类的边界点表示一个类。·使用聚类树

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。