基于邻域要素的局部密度离群点检测

基于邻域要素的局部密度离群点检测

ID:33819715

大小:7.84 MB

页数:66页

时间:2019-03-01

基于邻域要素的局部密度离群点检测_第1页
基于邻域要素的局部密度离群点检测_第2页
基于邻域要素的局部密度离群点检测_第3页
基于邻域要素的局部密度离群点检测_第4页
基于邻域要素的局部密度离群点检测_第5页
资源描述:

《基于邻域要素的局部密度离群点检测》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、摘要现今的大多数数据挖掘算法更偏重于发现大部分数据的模式匹配,却不太深入研究那些偏离模式的特殊数据对象。然而恰恰就是这些罕见事件、特殊对象、异常信息的价值有时候往往会比正常的数据对象更具有研究价值,更受人们青睐。例如异常银行卡取钱当中,人们并不关心正常额度的取款信息,而更加看重那种大额等异常取款信息:在流量信息分析中,人们可以通过检测异常流量信息来推断是否足中病毒;在病例图像分析中,人们可以通过检测异常像素点来推测是否为癌症患者等等。从上面的描述可以看出,离群点应该是具有研究价值、特殊意义的数据对象,而不是由于数据冗余、数据缺失等原冈产生的噪声。Hawkins认为离群点是另一种机制产生的不同信

2、号:它偏离了正常的观测信号。为了发现这类有研究意义的离群点,人们先后提出了基于统计的离群点检测方法、基于距离的离群点检测方法、基于密度的离群点检测方法、基于深度的离群点检测方法、基于偏差的离群点检测方法、基于聚类的离群点检测方法。其中基于密度的离群点检测方法尤为出色,它从局部出发,从对象的邻屑来看待其孤立情况。算法可以检测各种形状的簇,同时也适合于全局情况。但该算法计算量复杂,这个致命缺点使得算法不适合比较大的数据集。为了将局部离群点检测方法用于现实牛活中,对此,人们又提出了用邻域半径来衡量局部可达密度,用以减少计算量。然而,这种思想只是粗糙的度量了邻域的密度,精确度不够。针对以上一些问题,本

3、文提出了基于邻域要素的局部密度离群点检测算法。基于以前方法存在的问题,本文进行了如下研究:1、针对局部离群点检测不适于大数据集问题,提出了利用基于微粒群和变异模糊c均值算法相结合的聚类算法撇除一大部分非离群点,从而减少可疑离群点规模;并且将离群因子中最大的前m个作为离群点,减少了参数的输入;2、针对局部离群点检测计算量复杂问题,本文提出了利用邻域要素:邻域半径的大小、规模、紧凑度共同来衡量邻域密度的大小,从而替代局部可达密度;3、聚类不是专门用来检测离群点,因而精确性又不够;为了解决这1问题,本文提出了,将在聚类过程中产生的摘要可疑离群点集和利用最终簇中心产生的另一批可疑离群点进行取交,从而获

4、得最终的可疑离群点集。实验证明,与传统方法相比,改进后的方法虽然在时间效率上处于中等水平,但在准确性、鲁棒性测试上表现更佳,而且更适合于大数据集上的离群点检测。关键字:局部密度离群点检测,邻域要素,微粒群算法,模糊C均值IIAbs订actAbstractMostofcurrentdataminingalgorithmspaymoreattentiontodiscoverpatternmatchingofmostdatathanmakeastudyofthosespecialobjectsdeviatingfromthismodel.However,theserareevents,special

5、objectsmaybesometimesmoreimportantthannormalobjectsandgetmoreattention.Forexample,aboutabnormalbankcardtowithdrawmoney,wepaymoreattentiontoabnormalamountinformationthannormalamountinformation;weearlinferwhetherthevirusbydetectingabnormaltrafficinformationinflowanalysis;incasesofimageanalysis,wecande

6、tectabnormalpixelstospeculatewhetherforcancerpatientsandSOon.AsCanbeseenfromtheabovedescription,outliershouldhaveresearchvalue,thespecialsignificanceofthedataobject,ratherthanthenoisegeneratedbythedataredundancy,missingdata.Hawkinsthoughtoutlieristhetypeofsignalgeneratedbyanothermechanism;whichdevia

7、tesfromthenormalobservationsignal.Inordertofindthosevalueoutliers,peoplehasproposedoutlierdetectionmethodbasedonstatistical,outlierdetectionmethodbasedondistanceanddensity—basedoutlierdetectionmethod,

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。