资源描述:
《[推荐精品]浅谈聚类》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、浅谈聚类摘要:聚类是根据数据间的相似性将-个数据集合分成若干个子集的过程。其口标是发现隐藏在数据中的结构,因此具有探索性。不论是为了学习还是应用,聚类长期在许多领域扮演着重要的角色。如:统计,模式识别,信息检索,机器学习以及数据挖掘。这篇文章对聚类和关概念做一个简耍介绍,并给出了一些近邻测度。此外,介绍了一些常用的聚类方法,最后是聚类有效性的简介。Abstract:Clusteringistheprocessofidentifyingnaturalsubsetswithinmultidimensionaldatasetbasedoncertai
2、nsimilaritymeasure.Theaimofclusteringistofindstruetureshiddenindataandisthereforeexploratoryinnature.Forbothresearchandapplication,clusteringanalysishaslongplayedanimportantroleinawidevarietyoffields:statistics,patternrecognition,informationretrieval,machinelearning,anddatam
3、ining.Thispapergivesabriefintroductionofconceptionsrelatedwithclustering.Inaddition,severalProximityMeasuresareshown.Furthermore,somepopularclusteringapproachesarepresenteckFinally,ClusterValidityisalsointroducedconcisely.关键词:聚类,近邻测度,聚类方法,聚类有效性KeyWords:Clustering,ProximityMe
4、asures,ClusteringMethod,ClusterValidity1、简介聚类用于处理人们每天接受到的大量信息。将每个信息单独处理是不大可能的,所以人们试图把信息分类,每一类有这共同的特征。聚类大致包括以下过程:聚类对彖特征的选择,近邻测度的选择,定义聚类的准则,确定聚类的算法,结果的验证及判定。聚类对象的特征是用数据来表示的,数据类型包括:①标量类型,如人的性別特征。男性可能用“I”來表示,女性可能用“0”来表示。②顺序类型,如学生某课程的表现。“优秀”、“良好”、“及格”、“不好”对应的可能值为4、3、2、1。③区间尺度类型,如
5、天气温度。④比例尺度,如增长率。内容安排:近邻测度的简介将在第二节给岀。第三节介绍常用的儿种聚类方法。第四节说明聚类有效性。第五节做一个小结。2、近邻测度近邻测度包括相异测度和相似测度。以后简称为相异度和相似度。和界度是一个函数,表示两个数据对象的不相似性,满足三个性质:①最小值性,即对象与对象间的相异度存在最小值,□对象与自身的相异测度等于最小值。②对称性,即对象A与对象B的相异度等于对象B与对象A的相异度。③三角不等性,在任意对象A、B和C中,A与B相异度加上B与C相异度不小于A与C相异度。如果把A、B、C分别对应到空间点,这个性质可以看作
6、“三角形中两边之和不小于第三边”。和似度则与Z和反,表示两个数据对彖的和似性。同样满足对应的三个性质。如欧几里德距离是一种常用的相异度。d2(x,y)=yX(xi-y.)"其中X,yeX且Xi,Yi分别是X和y的第i个坐标。X是一个数据集合。X中的最小相异度为0.近邻测度除了应用在两个向量上,有些应用还需要定义向量与集合间、集合与集合间的近邻度。典型的向量与集合间的近邻度有最大近邻函数、最小近邻函数、平均近邻函数。集合与集合间的近邻函数除了最大、最小、平均外,述有均值近邻函数。形式化定义分别如下[lhQ:(x,C)=嗯XP(x,y)向量与集合间
7、的最大近邻函数Q:(x,C)=minp(x>y)向量与集合间的最小近邻函数P:;(x,C)=-fc22P(x,y)向量与集合间的平均近邻函数PZ(D.,D,)二驭$(x,y)R:(D.,D,)=Jinp(x,y)PZ(D.,D.)二击好.沽P(x,y)OD.,D,)=P(D1d」Dj)集合与集合间的最大近邻函数集合与集合间的最小近邻函数集合与集合间的平均近邻函数集合与集合间的均值近邻函数其中,卩为近邻测度函数。m为D的势。3、聚类方法聚类的结果取决于聚类所采用的准则和算法。其结果的有效性依赖于专家领域知识。聚类算法可采用不同的近邻测度,如常用的
8、欧氏距离。也可以自己定义适合某用途的相异度或者相似度。主要的算法有:顺序算法、层次算法、基于代价函数最优的算法以及其它。下面主要介绍两种代表性的算法: