《数据聚类》PPT课件

《数据聚类》PPT课件

ID:41920266

大小:753.00 KB

页数:54页

时间:2019-09-05

《数据聚类》PPT课件_第1页
《数据聚类》PPT课件_第2页
《数据聚类》PPT课件_第3页
《数据聚类》PPT课件_第4页
《数据聚类》PPT课件_第5页
资源描述:

《《数据聚类》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类方法聚类方法概述划分聚类方法层次聚类方法密度聚类方法其它聚类方法*1什么是聚类聚类(clustering),指将样本分到不同的组中使得同一组中的样本差异尽可能的小,而不同组中的样本差异尽可能的大。聚类得到的不同的组称为簇(cluster)。一个好的聚类方法将产生以下的聚类最大化类中的相似性最小化类间的相似性*22021/9/17数据仓库与数据挖掘3什么是聚类分析?聚类分析是根据“物以类聚”的道理,对样本或指标进行分类的一种多元统计分析方法,它们讨论的对象是大量的样本,要求能合理地按各自的特性进行合理的分类,没有任何模式可供参考或依循,即在没有先验知识的情况下进行的。2021/9

2、/17数据仓库与数据挖掘4聚类分析的基本思想基本思想是认为研究的样本或变量之间存在着程度不同的相似性(亲疏关系)。根据一批样本的多个观测指标,找出一些能够度量样本或变量之间相似程度的统计量,以这些统计量作为分类的依据,把一些相似程度较大的样本(或指标)聚合为一类,把另外一些相似程度较大的样本(或指标)聚合为一类,直到把所有的样本(或指标)都聚合完毕,形成一个由小到大的分类系统。2021/9/17数据仓库与数据挖掘5聚类分析无处不在谁经常光顾商店,谁买什么东西,买多少?按会员卡记录的光临次数、光临时间、性别、年龄、职业、购物种类、金额等变量聚类这样商店可以……识别顾客购买模式(如喜欢

3、一大早来买酸奶和鲜肉,习惯周末时一次性大采购)刻画不同的客户群的特征2021/9/17数据仓库与数据挖掘8聚类的应用领域经济领域:帮助市场分析人员从客户数据库中发现不同的客户群,并且用购买模式来刻画不同的客户群的特征。谁喜欢打国际长途,在什么时间,打到那里?对住宅区进行聚类,确定自动提款机ATM的安放位置股票市场板块分析,找出最具活力的板块龙头股企业信用等级分类……生物学领域:推导植物和动物的分类;对基因分类,获得对种群的认识数据挖掘领域作为其他数学算法的预处理步骤,获得数据分布状况,集中对特定的类做进一步的研究聚类与分类的差别聚类与分类最主要的差别是聚类的样本不具有类别标号,而分

4、类的样本具有类别标号。聚类是无监督学习(unsupervisedlearning),而分类是有监督学习(supervisedlearning)。因此,分类里有训练和测试,而聚类没有训练。尽管分类是识别对象组类别的有效手段,但需要高昂的代价收集和标记训练样本集。因此,聚类提供了一种新的处理模式:先把数据集划分为组,然后给有限的组指定类别标号。*9对聚类方法的一些要求可伸缩性处理不同类型属性的能力发现任意形状的聚类用于决定输入参数的领域知识最小化处理噪声数据和孤立点的能力对于输入纪录的顺序不敏感高维性基于约束的聚类可解释性和可用性*10聚类分析中的数据类型数据矩阵相异度矩阵*11标准度

5、量的聚类描述欧氏距离衡量的是多维空间中各个点之间的绝对距离曼哈顿距离曼哈顿距离来源于城市区块距离,是将多个维度上的距离进行求和后的结果明考斯基距离是对多个距离度量公式的概括性的表述,这里的p值是一个变量,当p=2的时候就得到了上面的欧氏距离。*12聚类分析中的数据类型向量对象的距离算法余弦度量实际上计算的是向量x与y之间夹角的余弦值。余弦度量对于平移与放大是不变的。*13主要聚类方法的分类聚类方法大致可以分为以下几类:划分聚类方法层次聚类方法密度聚类方法网格聚类方法基于模型的方法其它聚类方法*14主要聚类方法的分类划分聚类方法划分方法将给定的数据集划分成k份,每份为一个簇。划分方法

6、通常采用迭代重定位技术,尝试通过对象在簇之间的移动在改进划分。*15主要聚类方法的分类层次聚类方法层次聚类方法创建给定数据对象集的层次分解。一般可以分为凝聚法与分裂法。凝聚法:也称为自底向上的方法,开始将每个对象形成单独的簇,然后逐次合并相近的对象或簇,直到满足终止条件。分裂法:也称为自顶向下的方法,开始将所有对象放入一个簇中,每次迭代,簇分裂为更小的簇,直到满足终止条件。*16主要聚类方法的分类密度聚类方法大部分划分方法基于对象间的距离进行聚类,这样的方法只能发现球形簇,不能发现任意形状的簇。基于密度的聚类方法的思想是:只要邻域中的密度超过某个阈值,就继续聚类。基于密度的聚类方法

7、既可以发现任意形状的簇,也可以过滤噪声。*17主要聚类方法的分类网格聚类方法:把对象空间化为有限的数目单元,形成一个网格结构,所有的聚类操作都在网格结构内进行。它的优点是处理速度快。基于模型的聚类方法:为每个簇假定一个模型,并寻找数据对给定模型的最佳组合。其它聚类方法包括:针对高维数据的聚类方法,基于约束条件的聚类方法等等。*18划分聚类算法给定一个有n个对象的数据集,划分聚类技术将构造数据k个划分,每一个划分就代表一个簇。也就是说,它将数据划分为k个簇,而且这k个划

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。