数据挖掘平台中模糊聚类算法的研究与应用.pdf

数据挖掘平台中模糊聚类算法的研究与应用.pdf

ID:52954839

大小:569.80 KB

页数:6页

时间:2020-04-03

数据挖掘平台中模糊聚类算法的研究与应用.pdf_第1页
数据挖掘平台中模糊聚类算法的研究与应用.pdf_第2页
数据挖掘平台中模糊聚类算法的研究与应用.pdf_第3页
数据挖掘平台中模糊聚类算法的研究与应用.pdf_第4页
数据挖掘平台中模糊聚类算法的研究与应用.pdf_第5页
资源描述:

《数据挖掘平台中模糊聚类算法的研究与应用.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1数据挖掘平台中模糊聚类算法的研究与应用摘要数据挖掘是当前很多领域的一个研究热点,引起了大量研究人员的关注。本文具体研究了基于[1]目标函数的模糊聚类算法(FCM),并对聚类效果的有效性和参数选择进行了详细分析。最后将该算法应用于模型生命表的制作中。关键字数据挖掘;模糊聚类;有效性分析引言数据挖掘是目前国际上数据库和信息决策领域最前沿、最活跃的研究方向之一。本文的研究主体是数据挖掘方法中的基于目标函数的模糊聚类算法(FCM),重点是对聚类效果的分析。其中,有效性分析的目的是得到理想的聚类数,使聚类结果最佳地反映数据集的结果;加权指数的分析是为了

2、得到最佳的聚类模糊性。关于有效性的实现是目前该算法的一个重点和难点问题,文中针对该问题运用一组实验数据对效果进行了分析。本文还将该算法应用于模型生命表的制作中,取得了很好的效果。1基于目标函数的模糊聚类算法1.1基于目标函数的模糊聚类算法(FCM)的基本原理设集合X={x,x,…,x}中元素有m个特征,即x=(x,…,x)。要把X分为c类(2≤c≤n)。12nii1imn设有c个聚类中心V={v1,v2,…,vc},其中vi∈{v

3、v=∑aixi,ai∈R,xi∈X}。取i=1m22/1dik=xk−vi=[∑(xkj−vij)]为样本xk与聚

4、类中心vi的欧氏距离,那么理想的分类显然是使目j=1nc2标函数J(U,V)=∑∑uik(dik)为极小的U。其中,uik表示样本xk对于聚类中心vi的隶属度。k==11i1.2FCM算法的实现方法为了灵活地变动元素的相对隶属程度,把目标函数更一般化为:ncr2J(U,V)=∑∑(uik)xk−vik==11im其中r≥1,是待定的参数,.是R空间中的任一种范数。步骤如下:(0)(1)取定c,2≤c≤n;取定终止条件ε;取初始化聚类中心V;逐步迭代(l=,2,1,0…);(l)(l)(2)对于V,修正U1本文是国务院人口普查办公室重点招标项目(

5、国人字12号)的一部分。11,∀i,∀k,x−v≠0且x−v≠0cx−v1kikj∑(ki)r−1j=1xk−vj(l+)1u={1当x−v=0ikki0当x−v=0kjn(l)r∑(uik)xk(l0k=1(3)计算聚类中心v=in(l)r∑(uik)k=1(l)(l+)1(4)用一个矩阵范围比较V与V,对取定的ε>0(ε一般取0.001和0.01之间),若(l+)1(l)V−V≤ε,则停止迭代,否则l=l+1,转向(2)。1.3结果的清晰化本算法迭代所得的U是一个模糊划分矩阵,对应着X的模糊划分,可用下述两种方法使划分清晰化,得到X的普通分

6、类:方法1.∀x∈X,若x−v=minx−v,则将x归入第i类。其中v是第i类的聚类中心。也kki0kik0i001≤i≤c就是说,x与哪一个聚类中心最接近,就将它归到哪一类。k方法2.在U的第k列中,若u=max(u),则将x归入第i类。也就是说,x对哪一类的隶属度i0kikk0k1≤i≤c最大,就将它归入到哪一类。这一方法实际上就是最大原则方法。2FCM聚类算法的效果分析2.1初始聚类中心的研究初始聚类中心的选择一般有两种方法:①随机法:即随机选取前c个点作为初始聚类中心。这种方法的迭代次数多,收敛速度慢,而且可能使结果为局部最优解。②爬山

7、法:算法如下:1.选取第一个点为第一个聚类中心;2.选出离第一个点最远的那个点为第二个聚类中心;3.Fori=3toc,选出离已有的聚类中心的距离之和最大的那个点为第i个聚类中心。本文采用了爬山算法,在于其能够明显减少迭代次数,并加快聚类速度。而且,能够有效的防止得到局部最优解。2.2有效性的研究由于聚类是无人监督的,因此必须对聚类结果的有效性进行研究,就是应该把数据集分成几类才是[6]最好的,才能最佳反映数据集的结构。有效性问题可以转化为最佳类别数c的确定,基本思想如下:1.事先给定聚类数的范围[c,c],最佳聚类数在该范围中取得。minma

8、x22.Forc=ctoc(或则Forc=ctoc)minmaxmaxmin2.1初始化聚类中心V2.2应用FCM算法更新模糊分类矩阵U和聚类中心V2.3判断收敛性,如果没有,转2.22.4通过有效性指标函数计算指标值V(c)d3.比较各有效性指标值,最大(或最小)指标值V(c)所对应c的就是所求的最佳聚类数。dff现有的聚类有效性函数按其定义方式可分为两大类:基于数据集模糊划分和基于数据集集合结构。其中,基于数据集模糊划分理论基础是:好的聚类分析对应于数据集较“分明”的划分。这一类有效性[2]V[2,3]函数包括分离系数V和分离熵(平均信息量

9、)。它们的优点是简单、运算量小,适用于本PCPE身已经较分明且数据量小的数据集。但是,与数据集的结构特征缺乏直接联系,对于类间有交迭的数据不能很好的处

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。