基于密度划分的离群点检测算法-论文.pdf

基于密度划分的离群点检测算法-论文.pdf

ID:57924497

大小:502.70 KB

页数:7页

时间:2020-04-14

基于密度划分的离群点检测算法-论文.pdf_第1页
基于密度划分的离群点检测算法-论文.pdf_第2页
基于密度划分的离群点检测算法-论文.pdf_第3页
基于密度划分的离群点检测算法-论文.pdf_第4页
基于密度划分的离群点检测算法-论文.pdf_第5页
资源描述:

《基于密度划分的离群点检测算法-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机与现代化2015年第3期JISUANJIYUXIANDAIHUA第235期文章编号:1006-2475(2015)03-0026-07基于密度划分的离群点检测算法魏龙,王勇(1.西北工业大学计算机学院,陕西西安710129;2.西北工业大学理学院,陕西西安710129)摘要:目前,大部分离群点检测算法需要人工输入参数,不能同时检测出全局和局部离群点,不能有效处理密度不均匀数据针对这些问题,提出一种基于密度划分的离群点检测算法DD—DBSCAN。主要创新包括:1)运用最小生成树的方法,新定义簇密度

2、概念,将数据录入后划分成密度不等的簇,使算法能够处理密度分布不均匀的数据;2)采用“分而治之”的思想,对经过划分的数据集分别进行离群点检测,使得算法能够同时处理全局和局部离群点;3)通过在各个簇中自适应地计算所需参数值,算法不再需要人工输入参数(聚类半径(Eps)等)。通过在2D模拟数据集和Iris真实数据集上的实验表明,与DBSCAN算法比较,本文算法具有更高的覆盖率和正确率。关键词:数据挖掘;聚类;离群点检测中图分类号:TP301文献标识码:Adoi:10.3969/j.issn.1006—247

3、5.2015.03.006OutliersDetectionAlgorithmBasedonDensityDivisionWE/Long,WANGYong(1.SchoolofComputerScience,NorthwesternPolytechnicalUniversity,Xi’an710129,China;2.SchoolofNaturalandAppliedSciences,NorthwesternPolytechnicalUniversity,Xi’an710129,China)Abstr

4、act:Mostexistingoutliersdetectionalgorithmsneedtoinputparametersmanually,can’tdetecttheglobalandlocaloutliersatthesametime,andcan’tdealwithsuchproblemsasunevendensitydataeffectively.ThispaperproposedanoutliersdetectionalgorithmDD.DBSCANbasedondensitydiv

5、ision.Themaininnovationincludes:1)DefineanewconceptofClusterDensityac—cordingtothemethodofMinimumSpanningTree,theentereddataiSdividedintomanyclustersofdifferentdensity.Itcanhan—diethedataofunevendistributiondensity:2)Adoptingtheideaof“divideandrule”,det

6、ectoutliersfromthedivisiondatare—spectively,makethealgorithmbeabletodealwiththeglobalandlocaloutliersatthesametime;3)Itcancalculatetheparame—tervalueforeachclusterautomatically,makesthealgorithmneedsnolongerhumaninputparameters(ClusteringRadius(Eps)Etc)

7、.Experimentson2DsimulateddatasetsandIrisrealdatasets,comparedwithDBSCANalgorithm,theresultsshowthattheproposedalgorithmhashigherprecisionandaccuracy.Keywords:datamining;clustering;outlierdetection或异常值而清理,许多挖掘算法和任务也都试图降低0引言离群点的影响,甚至完全排除它们。然而,由于离群离群点挖掘(Ou

8、tliersMining)是数据挖掘领域中点既有可能是噪声信息也有可能是有用信息,随的一项重要技术,其目标是发现数据集中不同于大部意删除孤立数据可能导致有用信息的丢失,不关注孤分的少量数据对象,这些数据对象也被称为异常点立数据的产生原因可能产生更多的异常情况。在诸(AbnormalPoints)或孤立点(IsolatedPoints)。Haw—多领域中,人们更关注与大多数据不同的特殊数据,kins最早给出离群点的本质性定义:离群点是数据集试图挖掘隐含其中

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。