欢迎来到天天文库
浏览记录
ID:46587272
大小:1.28 MB
页数:79页
时间:2019-11-25
《第8章 聚类分析:基本概念和算法》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、聚类分析:基本概念和算法尤新革电子信息与通信学院国家防伪工程技术研究中心youxg@mail.hust.edu.cn2015/10/22DataMining:ConceptsandTechniques1什么是聚类分析聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组组内对象相互之间是相似的(同质性),组间对象是不同的,同质性越大,组件差别越大,聚类就越好Inter-clusterIntra-clusterdistancesaredistancesaremaximizedminimized2015/10/22DataMining:ConceptsandTechn
2、iques2什么是聚类分析旨在理解的聚类为了理解和分析数据,将其划分成具有公共特性的对象组。归类相关的文档方便浏览,归类具有相似功能的基因和蛋白质,归类具有相似价格波动的股票。旨在实用的聚类为了进一步的数据分析和数据处理技术的预处理。数据压缩,数据汇总。2015/10/22DataMining:ConceptsandTechniques3什么不是聚类分析监督式分类具有先验的类标号信息。简单的分割根据姓名的起始字母将学生分成不同的组。2015/10/22DataMining:ConceptsandTechniques4Howmanyclusters?SixClusters
3、TwoClustersFourClusters2015/10/22DataMining:ConceptsandTechniques5聚类类型层次的与划分的嵌套的vs.非嵌套的。层次聚类是嵌套簇的集合,组织成树形,除叶结点外,树中每一个结点都是其子女的并。划分聚类简单的将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中。2015/10/22DataMining:ConceptsandTechniques6聚类类型划分的层次的p1p3p4p22015/10/22DataMining:ConceptsandTechniques7互斥的,重叠的和模糊的互斥的(e
4、xclusive):每个对象都被指派到单个簇。重叠的(overlapping):将对象合理的同时指派到多个簇中。模糊的(fuzzyclustering):对象以一个0(绝对不属于)和1(绝对属于)之间的隶属权值属于每个簇。模糊集2015/10/22DataMining:ConceptsandTechniques8完全的与部分的完全聚类(completeclustering):将每个对象指派到一个簇。部分聚类不指派所有对象离群点,不感兴趣的事件2015/10/22DataMining:ConceptsandTechniques9簇类型明显分离的簇基于原型的簇基于图
5、的簇基于密度的簇概念簇2015/10/22DataMining:ConceptsandTechniques10明显分离的簇每个对象到同簇中每个对象的距离比到不同簇中任意对象的距离更近(或更相似)。3个明显分离的簇2015/10/22DataMining:ConceptsandTechniques11基于原型的簇每个对象到定义该簇的原型的距离比到其他簇的原型的距离更近质心基于中心的簇4个基于原型的簇2015/10/22DataMining:ConceptsandTechniques12基于图的簇结点是对象,边代表对象之间的联系,簇定义为互相连通但不与组外对象连通的对象
6、组每个对象到该簇某个对象的距离比到不同簇中任意点的距离更近基于邻近的簇2015/10/22DataMining:ConceptsandTechniques13基于密度的簇簇是对象的稠密区域,被低密度的区域环绕当具有噪声和离群点时,常常使用基于密度的簇定义6个基于密度的簇2015/10/22DataMining:ConceptsandTechniques14概念簇簇定义为具有某种共同性质的对象的集合2个重叠的环2015/10/22DataMining:ConceptsandTechniques15聚类算法K均值基于原型的划分的聚类技术,试图发现用户指定个数的簇(由质心代
7、表)。凝聚的层次聚类由多个单点簇重复合并,直到产生单个的包含所有点的簇。DBSCAN基于密度的聚类算法,个数自动确定。忽略噪声,不完全聚类。2015/10/22DataMining:ConceptsandTechniques16K均值聚类K均值用质心定义原型1.基于原型的单层划分2.每个聚类和一个质心点(中点)相关联3.每个点被指派到与之最接近的质心所属的类中4.聚类的数量(K)必须被指定2015/10/22DataMining:ConceptsandTechniq
此文档下载收益归作者所有