欢迎来到天天文库
浏览记录
ID:9430179
大小:2.38 MB
页数:106页
时间:2018-04-30
《【论文】一种基于数学形态学的离群点检测算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、硕士研究生学位论文题目一种基于数学形态学的离群点检测算法AnOutlierDetectionAlgorithmBasedonMathematicalMorphology97摘要摘要数据挖掘是在海量的数据中提取隐含的、未知的、潜在有用的知识或信息模式的决策支持方法。在信息爆炸的今天,数据挖掘显得尤为重要。一个人的噪声可能是另一个人的信号,忽视或降低离群点的存在性都将可能导致重要隐藏信息的丢失。在一些从数据库中发现知识(KDD)的应用实践中,发掘特别的实例,不具备一般数据特性的数据对象或离群点比找出普通模式更加令人感兴趣。因此,离群点本身可能是非常重要的,例如在欺诈探测中,离
2、群点可能预示着欺诈行为。总之,离群点检测是数据挖掘领域一个重要的研究方向。本文在分析已有离群点算法的基础上,提出了一种基于数学形态学的离群点检测算法。该算法首次把数学形态学的理论引入到离群点检测中,采用启发式方法自动检测离群点,无论是点状、线状,还是各种复杂的面状(凸面形状、非凸面形状、环面形状等)数据集,算法都能正确和精确地找出离群点,而对于非均匀密度数据集、多密度的数据集,算法也同样地能找出离群点。算法考虑了离群点“局部”的概念。无论与怎样的方式输入感兴趣的数据,对算法确定离群点都没有任何影响。此外,由于使用的是启发式的方法检测,用户只需要输入感兴趣的数据作为输入,而
3、无需输入其它参数即能自动确定出离群点。同时,该算法既适用于栅格系统又适用于矢量系统,且便于进行并行高速处理。算法循环地用半径由小到大递增变化的圆形结构元对数据库中的各数据点作闭运算,具体地说是半径由0开始,以增幅为1进行变化,这一过程中非邻接点个数以不同速度逐渐减少,当半径为0时所有的数据点都为非邻接点,当半径增大到一定程度时,非邻接点个数为0。随着结构元半径的不断增大,找出非邻接点个数与半径之间存在的关系,最终检测出数据库中存在的离群点。大量实验和理论分析表明该算法是可行的和有效的,能从数据库中正确并且精确无误地找出离群点。关键词:数据挖掘,离群点检测,数学形态学,闭运
4、算,非邻接点97摘要ABSTRACTDataminingisadecisionsupportapproachthatextractshidden,unknown,potentiallyusefulknowledgeandpatternfromhugevolumeofdata.Informationisgrowingatexponentialratesanddataminingisparticularlyimportantintheinformationageordigitalage.Outlierdetectionisimportantareasindatamining.
5、One’snoiseismaybeone’ssignal.FormanyKDD(KnowledgeDiscoveryinDatabases)applications,itismoreinterestingtofindtheexceptionalinstancesortheoutliersthantofindthecommonpatternorknowledge.Therefore,outlieritselfisperhapsveryimportant.Outlierdetectionhasimportantapplicationsinthefieldsofcredit-c
6、ardfrauddetection,monitoringcriminalactivesinE-commerce,networkrobustnessanalysis,intrusiondetection,andeventheanalysisofperformancestatisticsofprofessionalathletes.Tosumup,outlierdetectionisaverysignificantsubjectindatamining.Inthispaper,basedontheanalysisofexistingoutlierdetectionalgori
7、thms,anewalgorithmofoutlierdetectionthatiscalledODMM(anOutlierDetectionalgorithmbasedonMathematicalMorphology)ispresented,whichcombinesmathematicalmorphologywithoutlierdetectionfirstly,anditisautomaticallyoutlierdetectionbyaheuristicmethod.ODMMcoulddiscoveralloutlie
此文档下载收益归作者所有