资源描述:
《个性化信息服务关键技术_聚类分析》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、2007年10月第10期现代情报October12007No.10个性化信息服务关键技术)))聚类分析潘伟(武汉大学信息管理学院,武汉430070)1摘要2聚类分析也称群分析、点群分析,是研究分类的一种多元统计方法,是构建个性化信息系统的关键技术。本文分析了聚类分析的几种方法,并着重介绍了具有代表性的聚类算法。1关键词2聚类分析;个性化;信息服务1Abstract2Clusteranalysis,alsocalledgroupanalysisandpointgroupanalysis,isamulti-statisticanalysisappliedinclassification
2、andakeystrategyinconstructingcharacteristicinformationservice.Thispaperanalyzesseveralmethodsofclusteranalysisandputsemphasisonsomerepresentativeones.u1Keywords2clusteranalysis;characteristic;informationservice1中图分类号2G2021文献标识码2B1文章编号21008-0821(2007)10-0212-03聚类分析将物理或抽象对象的集合分成为由类似的对的过程中,一个组被分裂
3、为更小的组,直到最终每个对象象组成的多个类的过程称为聚类。聚类分析是WEB个性化在单独的一个组中,或者达到一个中止条件。应用的一种重要技术手段。作为一种无示例学习,它不需113基于密度的方法要预先定义类的特点或属性,而是从用户的访问行为中发基于距离的聚类方法只能发现球状的簇,而在发现任现潜在性的知识(类或群),从而能更好的体现智能性。聚意形状的簇上遇到了困难,为此提出了基于密度的聚类。类分析和分类分析有相似的作用,都是起到分类的目的,其中心思想是:只要临近区域的密度(对象或数据点的数但是分类分析是已知分类然后总结出分类规则,是一种有目)超过某个阀值就继续聚类。也就是说,对类中的每个
4、指导的学习;而聚类分析则是有了一批样本,不知道它们数据点在一个给定范围的区域中必须至少包含某个数目的的分类,甚至连分成几类都不知道,希望用某种方法把样点。这种方法可以用来过滤噪声数据,发现任意形状的簇。本数据进行合理的分类,使得同一类的样本性质比较接近,114基于网格的方法不同类的样本性质相差很大,它是无指导的学习。聚类分基于网格的方法就是把对象空间量化为有限数目的单析是对数据对象进行分类,把一组数据对象分到不同簇中。元,形成一个网格结构,所有的聚类操作都在这个网格结簇是一组数据对象的集合,簇内各对象间具有较高的相似构上进行。度,而不同组的对象差别较大。它具有这样的性质:(1)11
5、5基于模型的方法情在同一个簇中的数据对象彼此相似;(2)不同簇的数据对报基于模型的方法是为每个簇假定了一个模型,寻找数象差别很大。纵据对给定模型的最佳拟合。一个基于模型的算法可以通过横1聚类方法构造反映数据点空间分布的密度函数来定位聚类,也可以目前各类文献中提出了众多聚类算法可供选择,主要基于标准的统计数字自动决定聚类的数目。的有划分方法、层次方法、基于密度的方法、基于网格的2具有代表性的聚类算法方法及基于模型的方法等。211K-means聚类算法111划分方法K-means聚类算法是最常用的基于划分的方法。它以k划分方法是给定要构建的划分的数目K,首先创建一为参数,把n个对象分为
6、k个簇,以使簇内具有较高的相个初始划分,然后采用一种迭代的重定位技术,尝试通过似度,而簇间的相似度最低。相似度的计算根据一个簇中对象在划分间移动来改进划分。一个好的划分的准则是:所有对象的平均值(被看作簇的重心)来进行。在同一类中的对象之间尽可能/接近0或相关,而不同类21111K-means聚类算法过程中的对象之间尽可能/远离0或不同。为了达到全局最优,(1)随机的选择K个对象,对每个对象初始的代表了基于划分的聚类穷举了所有可能的划分。一个簇中心。112层次方法(2)对剩余的每个对象,根据其与各个簇中心的距离,层次的方法是对给定的数据对象集合进行层次的分解。将它赋给最近的簇。层次
7、方法有两种分解形式:凝聚和分裂。凝聚方法也称为(3)为变化后的每个簇重新计算平均值。自底向上的方法,初始将每个对象作为单独的一个组,然(4)直到准则函数收敛。则结束否则转到第二步。后相继地合并相近对象或组,直到所有的组合并为一个其中,比较代表性的是平均误差准则,其定义如下:(层次的最顶层),或者达到一个中止条件。分裂方法也称k2为自顶向下法,初始将所有的对象置于一个组中,在迭代E=Ep=1EjIO
8、j-Avgp
9、p收稿日期:2007)08)22作者简介:潘伟(1970