层次聚类算法的有效性研究

层次聚类算法的有效性研究

ID:36627149

大小:1.20 MB

页数:6页

时间:2019-05-13

层次聚类算法的有效性研究_第1页
层次聚类算法的有效性研究_第2页
层次聚类算法的有效性研究_第3页
层次聚类算法的有效性研究_第4页
层次聚类算法的有效性研究_第5页
资源描述:

《层次聚类算法的有效性研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、第40卷第5期山东大学学报(工学版)2010年10月Vol.40No.5JOURNALOFSHANDONGUNIVERSITY(ENGINEERINGSCIENCE)Doc.2010文章编号:16723961(2010)05000105层次聚类算法的有效性研究112胡晓庆,马儒宁,钟宝江(1.南京航空航天大学理学院,江苏南京211100;2.苏州大学计算机科学与技术学院,江苏苏州215006)摘要:针对如何从层次聚类算法得到样本集的多种聚类结果中获得用户最满意的聚类结果,在深入研究聚类有效性的基础上,通过模糊相似性关系刻画聚类

2、的类内致密性和类间分离性,建立了一个新的聚类有效性函数。在人工和实际数据集上的实验都表明了该有效性函数具有良好的性能。关键词:层次聚类;阈值;聚类有效性中图分类号:O235;TP391文献标志码:AStudyonvalidityofhierarchicalclustering112HUXiaoqing,MARuning,ZHONGBaojiang(1.CollegeofScience,NanjingUniversityofAeronauticsandAstronautics,Nanjing211100,China;2.Scho

3、olofComputerScienceandTechnology,SoozchowUniversity,Suzhou215006,China)Abstract:Inallusiontochoosethemostsatisfactoryclassificationfromseveralpartitioningresultsofthedatasetobteinedbyhierarchicalclustering,afterdeeplystudyingclusteringvalidityindices,anewclustervalidi

4、tyindexwasestablishedviadescribingcompactnessandseparationusingthefuzzysimilaritymatrixofthedataset.Theexperimentalresultsonbothsyntheticandrealworlddatasetshavedemonstratedtheeffectivenessofthenewclustervalidityindex.Keywords:hierarchicalclustering;threshold;cluste

5、rvalidityindex据集的多种分类结果都展现了出来,但是从算法所0引言得到的各类分类结果中获得用户最满意的分类情况却成了一个问题。根据模糊集理论,系统树结构的聚类分析作为无监督模式识别的一个重要分支每一层是由阈值λ决定的。因此,最优聚类结果的已经成为现代数据分析的一个重要工具。所谓聚类选取问题就是最优阈值的选取问题。对于最优阈值就是把一个没有类别标记的样本集按照某种准则划的选取问题,使用F统计量是研究者们比较认可的分成若干子集(类),使相似的样本尽可能归为一方法。当然随着对模糊数学研究的深入,近几年来类,而不相似的样本尽量

6、划分到不同的类中。根据也有新的解决方法。Nasibov和Ulutagay提出了一聚类形成方式的不同,聚类方法可以分为两大类:层个对于噪声更为稳定的FJP(fuzzyjointpoints)算[3]次聚类算法和基于划分的聚类算法。法。该算法的基本思想是根据样本点与样本点层次聚类算法,特别是凝聚式算法在计算上简之间的距离计算模糊关系矩阵,对于某一α∈(0,单、快捷,而且能够得到相近的最终结果,所以层次1],建立α截集和等价类。此时,这些α等价类决[12]聚类算法的应用较为广泛。虽然该类算法把数定了模糊聚类的每个α截集。但并非对每个

7、α∈收稿日期:20100423基金项目:国家自然科学基金资助项目(60705014);航空科学基金资助项目(2009ZH52069)作者简介:胡晓庆(1985),山东临沂人,硕士研究生,主要研究方向为模糊聚类分析.Email:sd-hxq@163.com通讯作者:马儒宁(1976),山东济宁人,博士,副教授,主要研究方向为神经网络,图像处理,聚类分析.Email:mrning@nuaa.edu.cn2山东大学学报(工学版)第40卷(0,1]都计算α截集,而是只计算影响聚类个数的两类,第二步中分成三类,这样一直进行下去直

8、到最α对应的α截集。最终的截集是由α取值区间上的后一步分成n类。在每一步中选择一个使得相异程最大值确定的。FJP算法已被证明能成功检测团装度最小的分裂。运用这种方法,可以得到一个相反数据集及流形状数据集,既使添加噪声点

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。