资源描述:
《第5章 聚类分析.ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、聚类分析根据同类事物应具有相近特性,而不同事物在这些特性上差异较大的假定,将所研究的事务进行分类,这种研究方法被称为聚类cluster.聚类分析是在没有或不用样本所属类别信息的情况下,依据样本集数据的内在结构,在样本间相似性度量的基础上对样本进行分类的方法1(C)VipinKumar,ParallelIssuesinDataMining,VECPAR2002聚类分析分类与聚类的区别分类:用已知类别的样本训练集来设计分类器(有监督)聚类:用事先不知样本的类别,而利用样本的先验知识来构造分类器(无监督学习)有监督学习是让计算机去学习我们已
2、经建立好的分类系统。无监督学习看起来非常困难:目标是我们不告诉计算机怎么做,而是让它(计算机)自己去学习怎样做一些事情。2(C)VipinKumar,ParallelIssuesinDataMining,VECPAR2002主要步骤1.数据预处理,2.为衡量数据点间的相似度定义一个距离函数,3.聚类或分组,4.评估输出。3(C)VipinKumar,ParallelIssuesinDataMining,VECPAR2002数据预处理包括选择数量,类型和特征的标度,它依靠特征选择和特征抽取,特征选择选择重要的特征,特征抽取把输入的特征转
3、化为一个新的显著特征,它们经常被用来获取一个合适的特征集来为避免“维数灾”进行聚类,数据预处理还包括将孤立点移出数据,孤立点是不依附于一般数据行为或模型的数据,因此孤立点经常会导致有偏差的聚类结果,因此为了得到正确的聚类,我们必须将它们剔除。既然类似性是定义一个类的基础,那么不同数据之间在同一个特征空间相似度的衡量对于聚类步骤是很重要的,由于特征类型和特征标度的多样性,距离度量必须谨慎,它经常依赖于应用,例如,通常通过定义在特征空间的距离度量来评估不同对象的相异性,很多距离度都应用在一些不同的领域,一个简单的距离度量,如Euclide
4、an距离,经常被用作反映不同数据间的相异性,一些有关相似性的度量,例如PMC和SMC,能够被用来特征化不同数据的概念相似性,在图像聚类上,子图图像的误差更正能够被用来衡量两个图形的相似性。将数据对象分到不同的类中是一个很重要的步骤,数据基于不同的方法被分到不同的类中,划分方法和层次方法是聚类分析的两个主要方法,划分方法一般从初始划分和最优化一个聚类标准开始。CrispClustering,它的每一个数据都属于单独的类;FuzzyClustering,它的每个数据可能在任何一个类中,CrispClustering和FuzzyCluste
5、rin是划分方法的两个主要技术,划分方法聚类是基于某个标准产生一个嵌套的划分系列,它可以度量不同类之间的相似性或一个类的可分离性用来合并和分裂类,其他的聚类方法还包括基于密度的聚类,基于模型的聚类,基于网格的聚类。评估聚类结果的质量是另一个重要的阶段,聚类是一个无管理的程序,也没有客观的标准来评价聚类结果,一般来说,几何性质,包括类间的分离和类内部的耦合,一般都用来评价聚类结果的质量。4(C)VipinKumar,ParallelIssuesinDataMining,VECPAR2002聚类图示聚类中没有任何指导信息,完全按照数据的分
6、布进行类别划分5(C)VipinKumar,ParallelIssuesinDataMining,VECPAR2002分类图示训练数据待分类数据6(C)VipinKumar,ParallelIssuesinDataMining,VECPAR2002什么是聚类分析?聚类分析仅根据在数据中发现的描述对象及其关系的信息,将数据对象分组,其目标是,组内的对象相互之间是相似的,二不同组中的对象是不同的。Inter-clusterdistancesaremaximizedIntra-clusterdistancesareminimized7(C)
7、VipinKumar,ParallelIssuesinDataMining,VECPAR2002聚类分析的应用商业将顾客划分成若干个组,以便进一步分析和开展营销活动。信息检索万维网包含数以亿计的web网页,搜索引擎可能返回数以千计的页面,可以使用聚类将搜索结果分成若干个簇,每个簇捕获查询的某个特定方面。例如一个电影查询可以返回诸如评论、新片预告、影星和电影院等8(C)VipinKumar,ParallelIssuesinDataMining,VECPAR2002实际应用:为什么需要聚类?对相似的文档或超链接进行聚类,由于类别数远小于文
8、档数,能够加快用户寻找相关信息的速度;9(C)VipinKumar,ParallelIssuesinDataMining,VECPAR2002聚类分析原理介绍什么是自然分组结构Naturalgrouping?我们看看以下