欢迎来到天天文库
浏览记录
ID:58140229
大小:612.15 KB
页数:4页
时间:2020-04-24
《基于网格相对密度差的扩展聚类算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第31卷第6期计算机应用研究V01.31No.62014年6月ApplicationResearchofComputersJun.2014基于网格相对密度差的扩展聚类算法黄红伟,黄天民(西南交通大学a.电气工程学院;b.数学学院,成都610031)摘要:针对现有的多密度聚类算法对参数依赖性较高、聚类精度较低等问题,提出一种基于网格相对密度差的扩展聚类算法(ECRGDD)。首先,该算法给出一种网格划分方法,通过统计数据点的分布情况选取相对密集区域,采用近邻估计法计算网格划分大小的标准;接着,提出网格相对密度差的概念,根据网格密度值选取初始单元,通过计算网格之间的相对密度差围
2、绕初始单元进行扩展聚类;最后,给出边界点提取技术,采用构建模糊函数的方法对边界单元进行处理。实验结果表明,该算法能有效地对不规则、多样化分布的数据集进行聚类,并能较好地分离出噪声,聚类精度较高。关键词:多密度聚类算法;网格相对密度差;扩展聚类;近邻估计法;边界点;模糊函数中图分类号:TP3O1.6文献标志码:A文章编号:1001—3695(2014)06—1702—04doi:10.3969/j.issn.1001—3695.2014.06.023Extensionclusteringalgorithmbasedonrelativegriddensitydifferenc
3、eHUANGHong—wei,HUANGTian.min(a.SchoolofElectronicEngineering,b.SchoolofMathematics,SouthwestJiaotongUniversity,Chengdu610031,China)Abstract:Fortheproblemthatexistingmulti—densityclusteringalgorithmhasahigherdependenceontheparameterandlowerclusteringaccuracy,thispaperdevelopedanextensioncl
4、usteringalgorithmbasedonrelativegriddensitydifference(ECRG—DD).Firstly,itgaveawayofgridpartitioning,thisalgorithmselectedrelativelydenseregionthroughthestatisticsofdatadistribution,andusedthenearestneighborestimationmethodtocalculatethegridpartitioningsize.Then,itproposedthecon—ceptofrela
5、tivegriddensitydifference,accordingtothegriddensity,determinedthestartunitandaroundwhichtheclustergraduallyextendedbycalculatingtherelativegriddensitydifferenceofgrids.Lastly,itproposedboundarypointsextractiontechniquetodealwiththeboundarycellsbyconstructingfuzzyfunction.Experimentalresul
6、tsdemonstratethatthisalgorithmcaneffectivelydiscoverclustersofirregularshapesanddiversedensities,andalsobeabletoidentifythenoise,hasahigherclusteringaccuracy.Keywords:multi—densityclusteringalgorithm;relativegriddensitydifference;extensionclustering;nearestneighborestima-tionmethod;bounda
7、rypoint;fuzzyfunction义为密集区域,然后通过连接这些密集区域形成聚簇。这种方0引言法的优点是能够发现任意形状的簇,克服了基于距离的算法只能发现类球形聚类的缺点。其代表算法有DBSCAN、OPTICS、聚类分析(clusteringanalysis)⋯是指基于对象集客观存在DENCLUEl等。基于网格的聚类算法将数据空间划分为有着若干个聚簇、每个聚簇中元素的某些属性都具有较高的相似限个单元的网格结构,所有的处理都是在网格单元上进行的。性而建立的一种数据描述方法。其作为一项重要的研究课题,这种方法的优点是聚类结
此文档下载收益归作者所有