数据挖掘中的离群点检测算法研究

数据挖掘中的离群点检测算法研究

ID:33902241

大小:3.45 MB

页数:70页

时间:2019-02-27

数据挖掘中的离群点检测算法研究_第1页
数据挖掘中的离群点检测算法研究_第2页
数据挖掘中的离群点检测算法研究_第3页
数据挖掘中的离群点检测算法研究_第4页
数据挖掘中的离群点检测算法研究_第5页
资源描述:

《数据挖掘中的离群点检测算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、厦门大学学位论文原创性声明本人呈交的学位论文是本人在导师指导下,独立完成的研究成果。本人在论文写作中参考其他个人或集体已经发表的研究成果,均在文中以适当方式明确标明,并符合法律规范和《厦门大学研究生学术活动规范(试行)》。另外,该学位论文为()课题(组)的研究成果,获得()课题(组)经费或实验室的资助,在()实验室完成。(请在以上括号内填写课题或课题组负责人或实验室名称,未有此项声明内容的,可以不作特别声明。)声明人(签名):诩嚆骘2·H钙月b日厦门大学学位论文著作权使用声一.\掣嬲本人同意厦门大学根据《中华人民共和国学位条例暂行实施办法》等规定保留和使用此学位论文,并向主管部门或其

2、指定机构送交学位论文(包括纸质版和电子版),允许学位论文进入厦门大学图书馆及其数据库被查阅、借阅。本人同意厦门大学将学位论文加入全国博士、硕士学位论文共建单位数据库进行检索,将学位论文的标题和摘要汇编出版,采用影印、缩印或者其它方式合理复制学位论文。本学位论文属于:()1.经厦门大学保密委员会审查核定的保密学位论文,于年月日解密,解密后适用上述授权。(√)2.不保密,适用上述授权。(请在以上相应括号内打“√”或填上相应内容。保密学位论文应是已经厦门大学保密委员会审定过的学位论文,未经厦门大学保密委员会审定的学位论文均为公开学位论文。此声明栏不填写的,默认为公开学位论文,均适用上述授权

3、。)声明人(签名).胡吗多>1Qk年,,月l>日摘要离群点检测是数据挖掘中的一个分支,它的任务是识别其特征显著不同于其他数据的观测值。在我们平常的社会生活和自然界中,大部分的事件和对象,都是很寻常或者是平凡的。但是我们也不能因此忽视,在其中也有很多不寻常或者不平凡的对象存在的可能性。这些对象的事件背后可能蕴含着更大的研究价值,有着广阔的应用前景。因此,离群点检测是一个非常有意义的研究方向。目前,研究者们已经提出了很多离群点检测方法,包括基于统计的离群点检测方法、基于频率的离群点检测方法、基于深度的离群点检测方法、基于距离的离群点检测方法和基于密度的离群点检测方法等。本文分析了离群点检

4、测的研究背景、意义和国内外研究现状,研究基于距离的离群点检测方法和基于频率的离群点检测方法,并改进了传统的离群点检测方法。属性通常可以分为两类,包括数值属性以及分类属性。本文详细分析了两种属性的区别,并做了以下工作:针对数值数据,对传统的基于距离的检测算法进行改进。传统的基于距离的检测算法输入参数多,而且算法对参数比较敏感,因此选择基于平均距离的离群点检测算法。针对这种算法计算量大,在大数据集中不适用的问题,根据如果数据对象r邻域内数据的个数达到k个以上就不是离群点的规则剪去部分非离群点,通过聚类,将类别按照密度进行排序,先选择密度小的类别开始检测,离群度阈值可以迅速增大,利用剪枝规

5、则再次剪枝。这样可以大大减小运算时间。针对分类数据,分析了基于距离的算法的不足,介绍了针对分类数据的常用的离群点检测方法,包括基于频率的方法和基于信息熵的方法。指出基于频率的AVF算法的不足,提出改进的基于频率的检测算法。通过常用的针对分类属性数据的k.modes聚类算法对数据集进行聚类,去除相似度较高的对象,再通过基于频率的方法进行检测,以达到更好的检测效果。关键词:离群点检测;平均距离;频率AbstractOutlierdetectionisabranchofdatamining.Itstaskistoidentifytheobservationswhosecharacteris

6、ticsaresignificantlydifferentfromotherdata.Infieldofnature,humansociety,ordatasets,mostoftheeventsandobjectsareordinaryorusual.Buttherearealsomanyunusualorextraordinaryobjects.Valuemaybebehindtheseobjects.Outlierdetectionhasbroadapplicationprospects.Sooutlierdetectionisaveryinterestingresearch.

7、Therearealreadyalargenumberofmethodsofoutlierdetection,includingmethodofstatistic-basedoutlierdetection,methodofdepth—basedoutlierdetection,methodofdistance·-basedoutlierdetectionandmethodofdensity--basedoutlierdetection.Inthispap

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。