dbscan聚类算法的研究与改进

dbscan聚类算法的研究与改进

ID:33503876

大小:365.38 KB

页数:7页

时间:2019-02-26

dbscan聚类算法的研究与改进_第1页
dbscan聚类算法的研究与改进_第2页
dbscan聚类算法的研究与改进_第3页
dbscan聚类算法的研究与改进_第4页
dbscan聚类算法的研究与改进_第5页
资源描述:

《dbscan聚类算法的研究与改进》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第37卷第1期中国矿业大学学报Vol.37No.12008年1月JournalofChinaUniversityofMining&TechnologyJan.2008DBSCAN聚类算法的研究与改进1,21冯少荣,肖文俊(1.华南理工大学计算机科学与工程学院,广东广州510641;2.厦门大学信息科学与技术学院,福建厦门361005)摘要:针对“基于密度的带有噪声的空间聚类”(DBSCAN)算法存在的不足,提出“分而治之”和高效的并行方法对DBSCAN算法进行改进.通过对数据进行划分,利用“分而治之”思想减少全局变量E

2、ps值的影响;利用并行处理方法和降维技术提高聚类效率,降低DBSCAN算法对内存的较高要求;采用增量式处理方式解决数据对象的增加和删除对聚类的影响.结果表明:新方法有效地解决了DBSCAN算法存在的问题,其聚类效率和聚类效果明显优于传统DBSCAN聚类算法.关键词:聚类;DBSCAN;划分;并行中图分类号:TP311文献标识码:A文章编号:100021964(2008)0120105207AnImprovedDBSCANClusteringAlgorithm1,21FENGShao2rong,XIAOWen2jun(1

3、.SchoolofComputerScienceandEngineering,SouthChinaUniversityofTechnology,Guangzhou,Guangdong510641,China;2.CollegeofInformationScienceandTechnology,XiamenUniversity,Xiamen,Fujiang361005,China)Abstract:Animproveddensitybasedspatialclusteringofapplicationswithnoise

4、(DBSCAN)al2gorithm,whichcanconsiderablyimproveclusterquality,isproposed.Thealgorithmisbasedontwoideas:dividingandruling,and;highperformanceparallelmethods.Theideaofdivid2ingandrulingwasusedtoreducetheeffectoftheglobalvariableEpsbydatapartition.Paral2lelprocessin

5、gmethodsandthetechniqueofreducingdimensionalitywereusedtoimprovetheefficiencyofclusteringandtoreducethelargememoryspacerequirementsoftheDBSCANal2gorithm.Finally,anincrementalprocessingmethodwasappliedtodeterminetheinfluenceonclusteringofinsertingordeletingdataob

6、jects.TheresultsshowthatanimplementationofthenewmethodsolvesexistingproblemstreatedbytheDBSCANalgorithm:BoththeefficiencyandtheclusterqualityarebetterthanfortheoriginalDBSCANalgorithm.Keywords:cluste2ring;DBSCAN;partition;parallelKeywords:clustering;DBSCAN;parti

7、tion;parallel数据挖掘技术目前已成为数据库技术的一个将具有足够高密度的区域划分为一类,并可以在带[123]研究热点,在许多领域得到广泛应用.DB2有“噪声”(outliers)的空间数据库中发现任意形状[4]SCAN算法是聚类分析中基于密度的聚类算的聚类,而且聚类速度快,可以作为增量聚类算[526][7]法,其基本思想是:对于簇中的每一个点在其给法的基础.但是,由于它直接对整个数据库进行定的半径范围内都至少包含给定数目的点.该算法操作,聚类时使用了一个全局性的表征密度的参收稿日期:2007201222基金项

8、目:福建省自然科学基金项目(A0310008);福建省高新技术研究开放计划重点项目(2003H043)作者简介:冯少荣(19642),男,河北省南宫市人,副教授,博士研究生,从事并行分布数据库、数据仓库、数据挖掘等方面的研究.E2mail:shaorong@xmu.edu.cnTel:059222186825106中国矿业大学学报

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。