聚类算法学习笔记

聚类算法学习笔记

ID:12537201

大小:27.50 KB

页数:6页

时间:2018-07-17

聚类算法学习笔记_第1页
聚类算法学习笔记_第2页
聚类算法学习笔记_第3页
聚类算法学习笔记_第4页
聚类算法学习笔记_第5页
资源描述:

《聚类算法学习笔记》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、聚类的定义聚类是一个将数据集划分为若干个子集的过程,并使得同一集合内的数据对象具有较高的相似度,而不同集合中的数据对象则是不相同的,相似或不相似的度量是基于数据对象描述属性的聚类值来确定的,通常就是利用各个聚类间的距离来进行描述的。聚类分析的基本指导思想是最大程度地实现类中对象相似度最大,类间对象相似度最小。聚类与分类不同,在分类模型中,存在样本数据,这些数据的类标号是已知的,分类的目的是从训练样本集中提取出分类的规则,用于对其他标号未知的对象进行类标识。在聚类中,预先不知道目标数据的有关类的信息,需要以某种度量为标准将所有的数据对象划分到各个簇中。因此,聚类分析又称为无监督

2、的学习。聚类主要包括以下几个过程:(1)数据准备:包括特征标准化和降维。(2)特征选择、提出:从最初的特征中选择是有效的特征,并将其存储于向量中。(3)特征提取:通过对所选择的特征进行转换,形成新的突出特征。(4)聚类(或分组):首先选择合适特征类型的某种距离函数(或构造新的距离函数)进行接近程度的度量,然后执行聚类或分组。聚类结果评估:指对聚类结果进行评估。评估主要有3种:外部有效性评估、内部有效性评估和相关性测试评估。聚类算法的要求(1)可扩展性。许多聚类算法在小数据集(少于200个数据对象)时可以工作很好;但一个大数据库可能会包含数以百万的对象。利用采样方法进行聚类分析

3、可能得到一个有偏差的结果,这时就需要可扩展的聚类分析算法。(2)处理不同类型属性的能力。许多算法是针对基于区间的数值属性而设计的。但是有些应用需要对实类型数据。如:二值类型、符号类型、顺序类型,或这些数据类型的组合。(3)发现任意形状的聚类。许多聚类算法是根据欧氏距离和Manhattan距离来进行聚类的。基于这类距离的聚类方法一般只能发现具有类似大小和密度的圆形或球状聚类。而实际一个聚类是可以具有任意形状的,因此设计能够发现任意开关类集的聚类算法是非常重要的。(1)需要(由用户)决定的输入参数最少。许多聚类算法需要用户输入聚类分析中所需要的一些参数(如:期望所获得聚类的个数)

4、。而聚类结果通常都与输入参数密切相关;而这些参数常常也很难决定,特别是包含高维对象的数据集。这不仅构成了用户的负担,也使得聚类质量难以控制。(2)处理噪声数据的能力。大多数现实世界的数据库均包含异常数据、不明数据、数据丢失和噪声数据,有些聚类算法对这样的数据非常敏感并会导致获得质量较差的数据。(3)对输入记录顺序不敏感。一些聚类算法对输入数据的顺序敏感,也就是不同的数据输入顺序会导致获得非常不同的结果。因此设计对输入数据顺序不敏感的聚类算法也是非常重要的。(4)高维问题。一个数据库或一个数据仓库或许包含若干维属性。许多聚类算法在处理低维数据时(仅包含二到三个维)时表现很好,然

5、而设计对高维空间中的数据对象,特别是对高维空间稀疏和怪异分布的的数据对象,能进行较好聚类分析的聚类算法已成为聚类研究中的一项挑战。(5)基于约束的聚类。现实世界中的应用可能需要在各种约束之下进行聚类分析。假设需要在一个城市中确定一些新加油站的位置,就需要考虑诸如:城市中的河流、调整路,以及每个区域的客户需求等约束情况下居民住地的聚类分析。设计能够发现满足特定约束条件且具有较好聚类质量的聚类算法也是一个重要聚类研究任务。(6)可解释性和可用性。用户往往希望聚类结果是可理解的、可解释的,以及可用的,这就需要聚类分析要与特定的解释和应用联系在一起。因此研究一个应用的目标是如何影响聚

6、类方法选择也是非常重要的。各种聚类算法介绍随着人们对数据挖掘的深入研究和了解,各种聚类算法的改进算法也相继提出,很多新算法在前人提出的算法中做了某些方面的提高和改进,且很多算法是有针对性地为特定的领域而设计。我们必须清楚地了解各种算法的优缺点和应用范围,根据实际问题选择合适的算法。基于层次的聚类算法基于层次的聚类算法对给定数据对象进行层次上的分解,可分为凝聚算法和分裂算法。(1)自底向上的凝聚聚类方法。这种策略是以数据对象作为原子类,然后将这些原子类进行聚合。逐步聚合成越来越大的类,直到满足终止条件。凝聚算法的过程为:在初始时,每一个成员都组成一个单独的簇,在以后的迭代过程中

7、,再把那些相互邻近的簇合并成一个簇,直到所有的成员组成一个簇为止。其时间和空间复杂性均为O(n2)。通过凝聚式的方法将两簇合并后,无法再将其分离到之前的状态。在凝聚聚类时,选择合适的类的个数和画出原始数据的图像很重要。(2)自顶向下分裂聚类方法。与凝聚法相反,该法先将所有对象置于一个簇中,然后逐渐细分为越来越小的簇,直到每个对象自成一簇,或者达到了某个终结条件。其主要思想是将那些成员之间不是非常紧密的簇进行分裂。跟凝聚式方法的方向相反,从一个簇出发,一步一步细化。它的优点在于研究者可以把注意力集中在数据

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。