欢迎来到天天文库
浏览记录
ID:57924497
大小:502.70 KB
页数:7页
时间:2020-04-14
《基于密度划分的离群点检测算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、计算机与现代化2015年第3期JISUANJIYUXIANDAIHUA第235期文章编号:1006-2475(2015)03-0026-07基于密度划分的离群点检测算法魏龙,王勇(1.西北工业大学计算机学院,陕西西安710129;2.西北工业大学理学院,陕西西安710129)摘要:目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据针对这些问题,提出一种基于密度划分的离群点检测算法DD—DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度
2、概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用“分而治之”的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。关键词:数据挖掘;聚类;离群点检测中图分类号:TP301文献标识码:Adoi:10.3969/j.issn.1006—247
3、5.2015.03.006OutliersDetectionAlgorithmBasedonDensityDivisionWE/Long,WANGYong(1.SchoolofComputerScience,NorthwesternPolytechnicalUniversity,Xi’an710129,China;2.SchoolofNaturalandAppliedSciences,NorthwesternPolytechnicalUniversity,Xi’an710129,China)Abstr
4、act:Mostexistingoutliersdetectionalgorithmsneedtoinputparametersmanually,can’tdetecttheglobalandlocaloutliersatthesametime,andcan’tdealwithsuchproblemsasunevendensitydataeffectively.ThispaperproposedanoutliersdetectionalgorithmDD.DBSCANbasedondensitydiv
5、ision.Themaininnovationincludes:1)DefineanewconceptofClusterDensityac—cordingtothemethodofMinimumSpanningTree,theentereddataiSdividedintomanyclustersofdifferentdensity.Itcanhan—diethedataofunevendistributiondensity:2)Adoptingtheideaof“divideandrule”,det
6、ectoutliersfromthedivisiondatare—spectively,makethealgorithmbeabletodealwiththeglobalandlocaloutliersatthesametime;3)Itcancalculatetheparame—tervalueforeachclusterautomatically,makesthealgorithmneedsnolongerhumaninputparameters(ClusteringRadius(Eps)Etc)
7、.Experimentson2DsimulateddatasetsandIrisrealdatasets,comparedwithDBSCANalgorithm,theresultsshowthattheproposedalgorithmhashigherprecisionandaccuracy.Keywords:datamining;clustering;outlierdetection或异常值而清理,许多挖掘算法和任务也都试图降低0引言离群点的影响,甚至完全排除它们。然而,由于离群离群点挖掘(Ou
8、tliersMining)是数据挖掘领域中点既有可能是噪声信息也有可能是有用信息,随的一项重要技术,其目标是发现数据集中不同于大部意删除孤立数据可能导致有用信息的丢失,不关注孤分的少量数据对象,这些数据对象也被称为异常点立数据的产生原因可能产生更多的异常情况。在诸(AbnormalPoints)或孤立点(IsolatedPoints)。Haw—多领域中,人们更关注与大多数据不同的特殊数据,kins最早给出离群点的本质性定义:离群点是数据集试图挖掘隐含其中
此文档下载收益归作者所有