模糊C均值聚类.docx

模糊C均值聚类.docx

ID:58574394

大小:31.04 KB

页数:4页

时间:2020-10-19

模糊C均值聚类.docx_第1页
模糊C均值聚类.docx_第2页
模糊C均值聚类.docx_第3页
模糊C均值聚类.docx_第4页
资源描述:

《模糊C均值聚类.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、模糊C均值聚类分析20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量的数据。但是,面对大规模的数据,传统的数据分析工具只能进行一些表层的处理,比如查询、统计等,而不能获得数据之间的内在关系和隐含的信息。为了摆脱“数据丰富,知识贫乏”的困境,人们迫切需要一种能够智能地、自动地把数据转换成有用信息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术应运而生。将物理或抽象对象的集合分组成由类似的对象组成的多个类的过程称为聚类。由聚类所生成的簇是

2、一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。聚类是一种重要的数据分析技术,搜索并且识别一个有限的种类集合或簇集合,进而描述数据。聚类分析作为统计学的一个分支,己经被广泛研究了许多年。而且,聚类分析也已经广泛地应用到诸多领域中,包括数据分析、模式识别、图像处理以及市场研究。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。在商务上,聚类能帮助市场分析人员从客户基本信息库中发现不同的客户群,并且用购买模式来刻画不同的

3、客户群的特征。在生物学上,聚类能用于推导植物和动物的分类,对基因进行分类,获得对种群中固有结构的认识。聚类在地球观测数据库中相似地区的确定,汽车保险单持有者的分组,及根据房屋的类型、价值和地理位置对一个城市中房屋的分组上也可以发挥作用。聚类也能用于对Web上的文档进行分类,以发现信息。基于层次的聚类算法文献中最早出现的Single-Linkage层次聚类算法是1957年在Lloyd的文章中最早出现的,之后MacQueen独立提出了经典的模糊C均值聚类算法,FCM算法中模糊划分的概念最早起源于Ru

4、spini的文章中,但关于FCM的算法的详细的分析与改进则是由Dunn和Bezdek完成的。聚类分析是多元统计分析的一种,也是非监督模式识别的一个重要分支,在模式分类、图像处理和模糊规则处理等众多领域中获得最广泛的应用。它把一个没有类别标记的样本集按某种准则划分为若干个子集(类),使相似的样本尽可能的归为一类,而将不相似的样本尽量划分到不同的类中。硬聚类把每个待辨识的对象严格地划分到某类中,具有非此即彼的性质,模糊聚类由于能够描述样本类属的中介性,能够客观地反映现实世界,已逐渐成为聚类分析的主流

5、。在众多的模糊聚类算法中,模糊c均值聚类算法(FCM)应用最为广泛。它按照某种判别准则,将数据的聚类转化为一个非线性优化问题,并通过迭代来进行求解,目前已成为非监督模式识别的一个重要分支。数据挖掘中的聚类分析主要集中在针对海量数据的有一效和实用的聚类方法研究,聚类方法的可伸缩性,高维聚类分析,分类属性数据聚类和具有混合属性数据的聚类,非距离模糊聚类等。因此,数据挖掘对聚类分析有其特殊的要求;可伸缩性,能够处理不同类型属性,强抗噪性,高维性,对输入顺序不敏感性,可解释性和可用性等。1.模糊聚类算法

6、模糊聚类算法是一种基于函数最优方法的聚类算法,使用微积分计算技术求最优代价函数。在基于概率算法的聚类方法中将使用概率密度函数,为此要假定合适的模型,模糊聚类算法的向量可以同时属于多个聚类,从而摆脱上述问题。在模糊聚类算法中,定义了向量与聚类之间的近邻函数,并且聚类中向量的隶属度由隶属函数集合提供。对模糊方法而言,在不同聚类中的向量隶属函数值是相互关联的。硬聚类可以看成是模糊聚类方法的一个特例。模糊聚类分析算法大致可分为三类:(1)分类数不定,根据不同要求对事物进行动态聚类,此类方法是基于模糊等价

7、矩阵聚类的,称为模糊等价矩阵动态聚类分析法。(2)分类数给定,寻找出对事物的最佳分析方案,此类方法是基于目标函数聚类的,称为模c均值聚类。(3)在摄动有意义的情况下,根据模糊相似矩阵聚类,此类方法称为基于摄动的模糊聚类分析法。2.模糊C均值聚类算法模糊C均值聚类(FCM),即众所周知的模糊ISODATA,是用隶属度确定每个数据点属于某个聚类的程度的一种聚类算法。1973年,Bezdek提出了该算法,作为早期硬C均值聚类(HCM)方法的一种改进。FCM把n个向量xi(i=1,2,…,n)分为c个模

8、糊组,并求每组的聚类中心,使得非相似性指标的价值函数达到最小。FCM用模糊划分,使得每个给定数据点用值在0,1间的隶属度来确定其属于各个组的程度。与引入模糊划分相适应,隶属矩阵U允许有取值在0,1间的元素。不过,加上归一化规定,一个数据集的隶属度的和总等于1:(2-1)那么,FCM的价值函数(或目标函数)就是:(2-2)这里介于[0,1]之间;为模糊组I的聚类中心,为第i个聚类中心与第j个数据点间的欧几里德距离;且是一个加权指数。构造如下新的目标函数,可求得使式(2-2)达到最小值的必要条件:(

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。