欢迎来到天天文库
浏览记录
ID:32953366
大小:75.37 KB
页数:11页
时间:2019-02-18
《异常点检测算法分析与选择》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、异常点检测算法分析与选择分类:数据仓库及数据挖掘2009・09・1117:273026人阅读评论(0)收藏举报算法数据挖掘产品数据库工作数据分析目录⑺[+11.1常见异常点检测算法在数据库中包含着少数的数据对象,它们与数据的-一般行为或特征不一致,这些数据对象叫做异常点(Outlier),也叫做孤立点。异常点的检测和分析是--种十分重要的数据挖掘类型,被称之为异常点挖掘。对于异常数据的挖掘主要是使用偏差检测,在数学意义上,偏差是指分类中的反常实例、不满足规则的特例,或者观测结果与模型预测值不-•致并随口寸间的变
2、化的值等等。偏差检测的基本目标是寻找观测结果与参照值之间有意义的差别,主要的偏差技术有聚类、序列异常、最近邻居法、多维数据分析等。除了识别异常数据外,异常数据挖掘还致力于寻找异常数据间隐含模型,用于猶能化的分析预测。对于异常数据分析方法的研究是论文的垂要内容之一,通过研究异常数据,找到适合岀口企业产品质量深入分析和有效监管的方法和策略。1.1.1基于统计的异常点检测算法从20世纪80年代起,界常检测问题就在统计学领域里得到广泛研究,通常用户用某个统计分布对数据点进行建模,再以假定的模型,根据点的分布来确定是否界
3、常。许许多多针对不同分布的界常测试(DiscordancyTest)方法发展起来,它们分别适用于不同的情形:①数据分布状况;②数据分布参数是否己知;③界常数据数量;④界常数据类型(高于或低于一般抽样值)。这方面比较有代表性的有1967年Mikey,Dunn&Clark提出的基于“均数漂移”模型的单点诊断量,1970年Gentleman&Wilk提岀的群组诊断量,1972年Tietjen&Moore提出的单样本k个离群点的统计量Ek,1985年Marasinghe提岀的改进的Ek统计量Fk,1989年Rosner
4、提岀的单样本多个离群检测算法ESD(GeneralizedExtremeStudentizedDeviate)方法,1991年Paul&Fung改进了ESD方法参数k选择的主观性,提出了回归分析的GESR(GeneralizedExtremeStudentizedDeviateResi2dual)方法。近年来,多样本的离群检测方法也得到了一定的发展,总的思路是先尽量得到一个不含离群点的“干净集”,然后在此基础上对剩余的其他数据点进行逐步离群检测〔29】。目前利用统计学研究异常点数据有了一些新的方法,如通过分析统
5、计数据的散度情况,即数据变异指标,来对数据的总体特征有更进一步的了解,对数据的分布情况有所了解,进而通过数据变异指标来发现数据中的异常点数据。常用的数据变异指标有极差、四分位数间距、均差、标准差、变异系数等等,变异指标的值大表示变异大、散布广;值小表示离差小,较密集。基于统计的方法检测出来的离群点很可能被不同的分布模型检测出来,可以说产生这些离群点的机制可能不唯一,解释离群点的意义时经常发生多义性,这是基于统计方法的一个缺陷。其次,基于统计的方法在很大程度上依赖于待挖掘的数据集是否满足某种概率分布模型,模型的参
6、数、离群点的数冃等对基于统计的方法都有非常重要的意义,而确定这些参数通常都比较困难。为克服这一问题,一些人提出对数据集进行分布拟合,但分布拟合存在两个问题:①给出的分布可能不适合任一标准分布。②即使存在一个标准分布,分布拟合的过程耗时太长。此外,基于统计的离群检测算法大多只适合于挖掘单变量的数值型数据,冃前几乎没有多元的不一致检验,对于大多数的应用来说,例如图像和地理数据,数据集的维数却可能是高维的。实际生活中,以上缺陷都大大限制了基于统计的方法的应用,使得它主要局限于科研计算,算法的可移植性较差。1.1.2基
7、于距离的异常点检测算法用什么标准判定一个数据对象是孤立点呢?即便是对给定的距离量度函数,对孤立点也有不同的定义,以下是使用较多的儿个:•・基于距离的离群点最早是由Knorr和Ng提出的,他们把记录看作高维空间中的点,离群点被定义为数据集中与大多数点之间的距离都大于某个阈值的点,通常被描述为DB(pct,dmin),数据集T中一个记录0称为离群点,当且仅当数据集T中至少有pct部分的数据与0的距离大于dmino换一种角度考虑,记M=NX(l-pct),离群检测即判断与点0距离小于〃泅的点是否多于M。若是,则0不是
8、离群点,否则0是离群点141,361o•・孤立点是数据集中到第k个最近邻居的距离最大的个对象〔37'。•・孤立点是数据集中与其k个最近邻居的平均距离最大的n个对象[381o基于距离的离群点定义包含并拓展了基于统计的思想,即使数据集不满足任何特定分布模型,它仍能有效地发现离群点,特别是当空间维数比较高时,算法的效率比基于密度的方法要高得多㈤】。算法具体实现时,首先给出记录间距离的度量,常
此文档下载收益归作者所有