资源描述:
《模糊聚类分析方法在数据挖掘中的应用》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、企业科技进步与自主创新模糊聚类分析方法在数据挖掘中的应用张骏,饶志刚(武汉理工大学管理学院,湖北武汉430070)摘要:在数据挖掘中引入了模糊聚类分析的方法,分析了该方法在数据挖掘中的特性,讨论了其在大型数据库中的应用方法,并以例证说明这一方法的实际应用。关键词:数据挖掘;聚类分析;模糊聚类中图分类号:TP274文献标识码:A文章编号:1001-7348(2006)04-0146-02多数应用采用了以下两个比较流行的启发说,对给定类中的每个数据点,在一个给定1数据挖掘中常见的聚类分析方法式方法:①k-means算法。在该算法中,每个范围的区域中必须至少包含某个数目的点。聚类(c
2、lustering)是数据挖掘领域最为簇用该簇中对象的平均值来表示。②k-这样的方法可以用来过滤“噪声”孤立点数常见的技术之一,用于发现在数据库中未知medoids算法。在该算法中,每个簇用接近聚据,发现任意形状的聚类。的对象类。即考察个体或数据对象间的相似类中心的一个对象来表示。这些启发式聚类DBSCAN是一个有代表性的基于密度性,将满足相似性条件的个体或数据对象划方法对在中小规模的数据库中发现球状簇的方法,它根据一个密度阀值来控制簇的增分在一组内,不满足相似性条件的个体或数很适用。长。OPTICS是另一个基于密度的方法,它为据对象划分在不同的组。(2)层次方法(hierar
3、chicalmethod)。层次自动的和交互的聚类分析计算一个聚类顺在数据挖掘中,常用的聚类算法主要有方法对给定数据对象集合进行层次的分解。序。以下一些方法:根据层次的分解如何形成,层次的方法可以(4)基于网格的方法(grid-basedmethod)。(1)划分方法(partitioningmethod)。给定分为凝聚的和分裂的。凝聚的方法,也称为基于网格的方法把对象空间量化为有限数目一个n个对象或元组的数据库,一个划分方自底向上的方法。一开始将每个对象作为单的单元,形成了一个网格结构。所有的聚类操法构建数据的k个划分,每个划分表示一个独的一个组,然后相继地合并相近的对象或作
4、都在这个网格结构(即量化的空间)上进聚簇,并且k≤n。也就是说,它将数据划分为组,直到所有的组合并为一个(层次的最上行。这种方法的主要优点是它的处理速度很k个组,同时满足如下的要求:①每个组至少层),或者达到一个终止条件。分裂的方法,快,其处理时间独立于数据对象的数目,只与包含一个对象;②每个对象必须属于且只属也称为自顶向下的方法。一开始将所有的对量化空间中每一维的单元数目有关。于一个组,同时某些模糊划分技术中第二个象置于一个聚类中,在迭代的每一步中,一(5)基于模型的方法(model-basedmet-要求可以放宽。个簇被分裂为更小的簇,直到最终每个对象hod)。基于模型的方
5、法为每个聚类假定了一给定要构建的划分的数目k,划分方法在单独的一个簇中,或者达到一个终止条个模型,寻找数据对给定模型的最佳拟合。是首先创建一个初始划分。然后采用一种迭件。一个基于模型的算法可能通过构建反映数代的重定位技术,尝试通过对象在划分间移(3)基于密度的方法(density-basedmeth-据点空间分布的密度函数来定位聚类。它也动来改进划分。一个好的划分的一般准则od)。绝大多数划分方法基于对象之间的距离基于标准的统计数字自动决定聚类数目,考是:在同一个类中的对象之间尽可能“接近”进行聚类。这样的方法只能发现球状的簇,虑“噪声”数据或孤立点,从而产生健壮的聚或相关,而
6、不同类中的对象之间尽可能“远而在发现任意形状的簇上存在困难。随之提类方法。离”或不同。还有许多其它划分质量的评判出了基于密度的另一类聚类方法,其主要思2数据挖掘中模糊聚类分析的特点准则。为了达到全局最优,基于划分的聚类想是:只要临近区域的密度(对象或数据点会要求穷举所有可能的划分。实际上,绝大的数目)超过某个阀值,就继续聚类。也就是(1)高效率。该方法与k-平均算法、中心收稿日期:2005-06-28作者简介:张骏(1964-),武汉理工大学管理学院副教授,研究方向为管理信息系统、决策支持系统、群体决策支持系统;饶志刚(1975-),武汉理工大学管理学院在读硕士研究生,研究方向
7、为决策支持系统、数据仓库与数据挖掘。146科技进步与对策·4月号·2006企业科技进步与自主创新点算法等相比,其计算量可以大大减少,因得到关系矩阵如下:*10.9940.9790.9990.972-为它省去了多重迭代的反复计算过程,因此#g11g12⋯g1m&+0.99410.9520.9970.992.时间效率将大大提高。同时,模糊聚类分析$gg⋯g’G=+0.9790.95210.9660.96.21222m+.G=$’,其中gij=1。可根据数据库中的相关数据计算形成模糊$⋯⋯⋯⋯’+