第8章 聚类分析:基本概念和算法

第8章 聚类分析:基本概念和算法

ID:46587272

大小:1.28 MB

页数:79页

时间:2019-11-25

第8章 聚类分析:基本概念和算法_第1页
第8章 聚类分析:基本概念和算法_第2页
第8章 聚类分析:基本概念和算法_第3页
第8章 聚类分析:基本概念和算法_第4页
第8章 聚类分析:基本概念和算法_第5页
资源描述:

《第8章 聚类分析:基本概念和算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、聚类分析:基本概念和算法尤新革电子信息与通信学院国家防伪工程技术研究中心youxg@mail.hust.edu.cn2015/10/22DataMining:ConceptsandTechniques1什么是聚类分析聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组组内对象相互之间是相似的(同质性),组间对象是不同的,同质性越大,组件差别越大,聚类就越好Inter-clusterIntra-clusterdistancesaredistancesaremaximizedminimized2015/10/22DataMining:ConceptsandTechn

2、iques2什么是聚类分析旨在理解的聚类为了理解和分析数据,将其划分成具有公共特性的对象组。归类相关的文档方便浏览,归类具有相似功能的基因和蛋白质,归类具有相似价格波动的股票。旨在实用的聚类为了进一步的数据分析和数据处理技术的预处理。数据压缩,数据汇总。2015/10/22DataMining:ConceptsandTechniques3什么不是聚类分析监督式分类具有先验的类标号信息。简单的分割根据姓名的起始字母将学生分成不同的组。2015/10/22DataMining:ConceptsandTechniques4Howmanyclusters?SixClusters

3、TwoClustersFourClusters2015/10/22DataMining:ConceptsandTechniques5聚类类型层次的与划分的嵌套的vs.非嵌套的。层次聚类是嵌套簇的集合,组织成树形,除叶结点外,树中每一个结点都是其子女的并。划分聚类简单的将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中。2015/10/22DataMining:ConceptsandTechniques6聚类类型划分的层次的p1p3p4p22015/10/22DataMining:ConceptsandTechniques7互斥的,重叠的和模糊的互斥的(e

4、xclusive):每个对象都被指派到单个簇。重叠的(overlapping):将对象合理的同时指派到多个簇中。模糊的(fuzzyclustering):对象以一个0(绝对不属于)和1(绝对属于)之间的隶属权值属于每个簇。模糊集2015/10/22DataMining:ConceptsandTechniques8完全的与部分的完全聚类(completeclustering):将每个对象指派到一个簇。部分聚类不指派所有对象离群点,不感兴趣的事件2015/10/22DataMining:ConceptsandTechniques9簇类型明显分离的簇基于原型的簇基于图

5、的簇基于密度的簇概念簇2015/10/22DataMining:ConceptsandTechniques10明显分离的簇每个对象到同簇中每个对象的距离比到不同簇中任意对象的距离更近(或更相似)。3个明显分离的簇2015/10/22DataMining:ConceptsandTechniques11基于原型的簇每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近质心基于中心的簇4个基于原型的簇2015/10/22DataMining:ConceptsandTechniques12基于图的簇结点是对象,边代表对象之间的联系,簇定义为互相连通但不与组外对象连通的对象

6、组每个对象到该簇某个对象的距离比到不同簇中任意点的距离更近基于邻近的簇2015/10/22DataMining:ConceptsandTechniques13基于密度的簇簇是对象的稠密区域,被低密度的区域环绕当具有噪声和离群点时,常常使用基于密度的簇定义6个基于密度的簇2015/10/22DataMining:ConceptsandTechniques14概念簇簇定义为具有某种共同性质的对象的集合2个重叠的环2015/10/22DataMining:ConceptsandTechniques15聚类算法K均值基于原型的划分的聚类技术,试图发现用户指定个数的簇(由质心代

7、表)。凝聚的层次聚类由多个单点簇重复合并,直到产生单个的包含所有点的簇。DBSCAN基于密度的聚类算法,个数自动确定。忽略噪声,不完全聚类。2015/10/22DataMining:ConceptsandTechniques16K均值聚类K均值用质心定义原型1.基于原型的单层划分2.每个聚类和一个质心点(中点)相关联3.每个点被指派到与之最接近的质心所属的类中4.聚类的数量(K)必须被指定2015/10/22DataMining:ConceptsandTechniq

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。