数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析.ppt

数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析.ppt

ID:56477137

大小:1.61 MB

页数:87页

时间:2020-06-19

数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析.ppt_第1页
数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析.ppt_第2页
数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析.ppt_第3页
数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析.ppt_第4页
数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析.ppt_第5页
资源描述:

《数据挖掘2015最新精品课程完整课件(第13讲)---聚类分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、聚类分析主要内容聚类基于分割的聚类层次聚类基于密度的聚类聚类分析(ClusteringAnalysis)发现对象簇(Cluster),使得同一个簇内的对象尽量相似,不同簇间的对象尽量不同。Inter-clusterdistancesaremaximizedIntra-clusterdistancesareminimized簇的概念可能会模糊Howmanyclusters?FourClustersTwoClustersSixClusters聚类无监督的学习(Unsupervisedlearning):与分类不同,没有事先定义的类别标记。聚类的用途:作为

2、单独的数据分析工具可作为其它方法的预处理手段聚类分析的应用理解(Understanding)相关文档的组,有相似功能的基因和蛋白质组,或有相似价格波动的股票等。概括(Summarization)减小数据集的规模ClusteringprecipitationinAustralia用聚类做数据预处理数据概括(Summarization):服务于回归(regression),主成分分析(PCA),分类(classification),关联分析(associationanalysis)压缩(Compression):图像处理(Imageprocessing)

3、寻找K-最近邻居(K-nearestNeighbors)在一个簇或几个簇内进行局部搜索聚类质量的评价高质量的聚类:高簇内相似性(highintra-classsimilarity)低簇间相似性(lowinter-classsimilarity)聚类的质量不但依赖于所使用的方法,而且也依赖于实现方式。聚类质量最主要的评价标准还是用户的满意程度。聚类质量的度量相似性度量:一般通过距离函数来描述:d(i,j)针对不同数据,如区间值数据、布尔数据、类别数据、顺序数据等,会有不同的距离函数根据不同应用和数据的语义,变量会被赋予不同的权重。聚类的质量:通常会有明

4、确的质量函数来度量聚类质量的好坏。很难定义“足够好”这类问题的答案往往具有明显的主观色彩。聚类中常用的数据结构数据矩阵差别矩阵距离函数(1)通常距离函数须具备如下性质:d(i,j)0,非负性d(i,i)=0d(i,j)=d(j,i),对称性d(i,j)d(i,k)+d(k,j),三角不等式距离函数(2)假设每条记录有n个属性,两个元组(xi1,…,xin)和(xj1,…,xjn)的相似性可通过如下方式来度量:Minkowski距离:若属性具有不同的权重,此时的距离可定义为:通常使用的是Minkowski距离的特殊形式:数值型属性可使用Minkow

5、ski距离及其特殊形式使用距离函数之前,要对属性的值进行规范化,如z-值规范化:使用平均绝对偏差(MeanAbsoluteDeviation,MAD),而不用标准差的原因:•前者比后者抗噪声能力更强•用前者更容易检测到噪声顺序属性顺序属性(ordinalattribute)可以是连续的,也可以是离散的可通过离散化把连续属性转换为顺序属性顺序比实际的值更重要转换后可看作是连续属性将实际的值xiA用其排序(rank)riA来代替,riA{1,…,MA}将排序映射到[0,1]再使用Minkowski距离二值属性(BinaryVariables)使用列联表

6、(contingencytable)对称属性(symmetricattribute)的距离:非对称属性(asymmetricattribute)的距离:Jaccard系数:1-d(i,j)ObjectiObjectj二值属性的相异性性别是对称属性,其余均是非对称属性设Y和P代表1,N代表0相异性只由非对称属性计算名词性属性(NominalVariables)二值数型的泛化,可取两个以上的值,如red,yellow,blue,green方法1:简单匹配m:#ofmatches,p:total#ofvariables方法2:转化为二值属性混合型属性将不同

7、类型的属性转换到[0,1]不同的属性可被赋予不同的权重向量对象(VectorObjects)向量对象:文档中的关键字等.应用广泛:信息检索,生物信息学等.Cosinemeasure聚类的类型聚类就是要得到一系列的簇主要分为分割聚类和层次聚类分割聚类(PartitionalClustering)将数据对象分割为不重叠的子集,使得每个数据对象只属于其中的一个子集。层次聚类(Hierarchicalclustering)将数据对象分割为一系列嵌套的、树状的簇分割聚类OriginalPointsAPartitionalClustering层次聚类Tradit

8、ionalHierarchicalClusteringNon-traditionalHierarchical

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。