欢迎来到天天文库
浏览记录
ID:3446476
大小:454.00 KB
页数:37页
时间:2017-11-21
《基于matlab的模糊isodata算法设计》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、基于MATLAB的模糊ISODATA算法设计目录一、前言1二、模糊ISODATA算法的基本原理1三、模糊ISODATA算法的基本步骤3四、模糊ISODATA算法MATLAB程序实现7(一)模糊ISODATA算法MATLAB程序流程图7(二)模糊ISODATA算法程序运行结果及分析71、初始化数据82、修改初始化数据e,其他同1143、修改初始化数据m,其他同116五、后22组样本的聚类结果19六、结论20参考文献21程序23一、前言G.H.Ball与D.J.Hall于1965年提出的ISODATA算法是一个通过逐步修改聚类中心的个数与位置来达到分类目的的集群算法
2、,后来不断有人提出它的各种改进算法,其中包括Ball和Hall1967年提出的改进算法、CLASS、Asp等。1974年J.C.Dunn首次提出应用模糊数学判据的ISODATA集群算法——FuzzyISODATA(IterativeSelf-OrganizingDataAnalysisTechnique)。算法通过每样本点对各类的隶属度矩阵表示分类结果。通过不断修改聚类中心的位置来进行分类。1976年J.C.Bezdek把Dunn的方法推广到更一般的情形,并得到了一些有益的结论,其中包括新的判据,隶属度函数与聚类中心的计算公式。Bezdek于1979年用W.Za
3、ngwill的理论证明了FuzzyISODATA的收敛性。该方法已在行星跟踪系统,心脏病分析和天气预报等方面得到了应用。[1]二、模糊ISODATA算法的基本原理J.C.Bezdek在普通分类基础上,利用模糊集合的概念提出了模糊分类问题。认为被分类对象集合X中的样本以一定的隶属度属于某一类,即所有的样本都分别以不同的隶属度属于某一类。[2]因此,每一类就被认为是样本集X上的一个模糊子集,于是,每一种这样的分类结果所对应的分类矩阵,就是一个模糊矩阵。模糊ISODATA聚类方法从选择的初始聚类中心出发,根据目标函数,用数学迭代计算的方法反复修改模糊矩阵和聚类中心,并
4、对类别进行合并、分解和删除等操作,直到合理为止。[3]设有限样本集(论域),每一个样本有s个特征。即样本的特征的矩阵:欲把它分为K类(),则N个样本划分为K类的模糊分类矩阵为:35其满足下列三个条件:Ⅰ、Ⅱ、Ⅲ、条件Ⅱ表明每一样本属于各类的隶属度之和为1;条件Ⅲ表明每一类模糊集不可能是空集合,即总有样本不同程度的隶属于某类。[4]定义K个聚类中心。其中:。第i类的中心即人为假想的理想样本,它对应的s个指标值是该类样本所对应的指标值的平均值:构造准则函数:其中,表示第j个样本与第i类中心之间的欧式距离;J表示所有待聚类样本与所属类的聚类中心之间距离的平方和。[5]
5、为了确定最佳分类结果,就是寻求最佳划分矩阵U和对应的聚类中心Z,使J达到极小。Dunn证明了求上述泛函的极小值的问题可解。[6]35三、模糊ISODATA算法的基本步骤(1)选择初始聚类中心。例如,可以将全体样本的均值作为第一个聚类中心,然后在每个特征方向上加和减一个均方差,共得个聚类中心,n是样本的维数(特征数)。也可以用其他方法选择初始聚类中心。(2)若已选择了K个初始聚类中心,接着利用模糊K-均值算法对样本进行聚类。由于现在得到的不是初始隶属度矩阵,而是各类聚类中心,所以算法应从模糊K-均值算法的第四步开始,即直接计算下一步的隶属度矩阵。[7]继续K-均值
6、算法直到收敛为止,最终得到隶属度矩阵U和K个聚类中心。然后进行类别调整。①计算初始隶属度矩阵,矩阵元素的计算方法为式中,是第j个样本到第i类初始聚类中心的距离。为避免分母为零,特规定:若,则,;可见,越大,越小。②求各类的新的聚类中心,L为迭代次数。式中,参数,是一个控制聚类结果模糊程度的常数。可以看出各聚类中心的计算必须用到全部的N个样本,这是与非模糊的K-均值算法的区别之一。在K-均值算法中,某一类的聚类中心仅由该类样本决定,不涉及其他类。[8]③计算新的隶属度矩阵,矩阵元素的计算方法为35式中,是第L次迭代完成时,第j个样本到第i类聚类中心的距离。为避免分
7、母为零,特规定:若,则,;可见,越大,越小。④回到第③步,重复至收敛。收敛条件为,其中,为规定的参数。[9](3)类别调整。调整分三种情形:①合并。假定各聚类中心之间的平均距离为D,则取合并阈值为其中,是人为构造的函数,,而且应是K的减函数,通常取,α是一个可选择的参数。可见,若D确定,则K越大时也越大,即合并越容易发生。若聚类中心和间的距离小于,则合并这两个点而得到新的聚类中心,为式中,N为样本个数。可见,是和的加权平均,而所用的权系数便是全体样本对和两类的隶属度。[10]②分解。首先计算各类在每个特征方向上的“模糊化方差”。对于类的第j个特征,模糊化方差的计
8、算公式为式中是参数,通常
此文档下载收益归作者所有