浅论基于兴趣度的离群点挖掘技术研究

浅论基于兴趣度的离群点挖掘技术研究

ID:35130694

大小:1.28 MB

页数:45页

时间:2019-03-19

浅论基于兴趣度的离群点挖掘技术研究_第1页
浅论基于兴趣度的离群点挖掘技术研究_第2页
浅论基于兴趣度的离群点挖掘技术研究_第3页
浅论基于兴趣度的离群点挖掘技术研究_第4页
浅论基于兴趣度的离群点挖掘技术研究_第5页
资源描述:

《浅论基于兴趣度的离群点挖掘技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东南大学硕士学位论文基于兴趣度的离群点挖掘技术研究姓名:余岚申请学位级别:硕士专业:计算机应用技术指导教师:孙志挥20040301基于兴趣度的离群点挖掘技术研究摘要现代企业在其信息化的过程中积累了越来越多的数据,对于一些企业应用,异常数据的挖掘比常规模式的挖掘更有应用价值。对于这类数据挖掘研究的需求日益明显增加,无论在国内还是国外都形成了广阔的研究领域,该项技术越来越多的投入到现今社会的诸多应用中,发挥着其不可被替代的作用。例如企业管理风险的预测分析,网络入侵检测等。这些技术都需要对于异常情况快速而敏感的检测,这些都为离群点的挖掘提供了潜在的应用背景。在目前的数据挖掘研究中,兴趣规则的研究大多

2、基于关联规则和强关联规则的考虑,孤立点的研究也只是基于单库,适应高维的孤立点检测的有效算法依然在研究中,基于这些因素,本文提出了不同于以往研究的一种兴趣度新定义——新奇度,即把兴趣度和离群点结合起来,注重具有此类特征的离群点的挖掘。在现有的LOF算法和GridLOF算法的基础上,把数据库看作数据集,用孤立点概念代替新奇数据的概念,提出改进后的基于兴趣度的挖掘新奇数据的算法GPOD(aGrid—basedPreprocessingOutlierDetectionalgorithm),使其能更有效、快速的挖掘出离群点,GPOD算法在高维数据集的挖掘中也具有一定的理论价值。在适当的环境F可以迸一步引

3、申为兴趣规则,并推广应用丁多库环境中,挖掘出具有实际意义的有用规则,进而为企业决策者提供有用的信息。本文在介绍相关的概念及定义的基础上,详细讨论了兴趣规则的具体定义,具体意义及应用。还重点介绍挖掘算法采用的技术——孤立点检测和聚类,阐述了基于兴趣度的离群点挖掘方法以及如何由席间规则得出多库下的规则;此外,本文还具体介绍了GPOD算法在多库下实行的步骤,给山主要的算法代码,并给出算法的实现部分和实验结果,验证算法的先进性,分析算法的性能,给出其优点和不足,与算法LOF和GridLOF的一些比较。’最后做出总结,指出本课题进一步研究和有待完善的内容以及下一步研究T作的主要方向。关键词:离群点,兴趣

4、度,新奇度,局部偏离因素,单元网格,多库基于兴趣度的离群点挖掘技术研究AbstractToday,moreandmoredatawereaccumulatedlncompaniesForsomeofthem,exceptionaldataaremorevaluablethannormalones.TherequirementofminingdataofsuchtypeincreaseseveryyearinbothourcoantTyandforeignones.Widerangesofstudyareawereformed.Technologyabouttheareahavebeenputi

5、ntomanyapplicationsinourmodemsocietyandactedasausefult001.Forexample,theanalysisofpredictionofriskmanagementofenterprise,networkintrusiondetectionandsoon.ThistechnologyneeddetectexceptionalcasesensitivelyandspeedilyAllthesearebackgroundsofminingoutliers.Inrecentstudyofdatamining,moststudyofinteresti

6、ngrulesbasedonassociationalrulesorstrongassociationalrules.Theworkofoutlierdetectionbasedonsingledataset.Forthesereasons,thispaperbroughtoutanewdefinitionaboutinterestingnessthatnamedpeculiarity.Combiningtheconceptionofpeculiarityandoutliers,thepaperfocusonminingoutliersindatabase.Anewadvancedalgori

7、thmGPODwerebroughtoutbasedonGridLOFandLOF,whichcouldmineoutliersoutmoreefficiently·Itcanalsoexpandtobeusedinmulti—database,whichcanprovidemoreusefulinformationtousers.Inthebeginning,thepaperintroduced

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。