欢迎来到天天文库
浏览记录
ID:58139598
大小:453.13 KB
页数:5页
时间:2020-04-24
《基于密度的局部离群数据挖掘方法的改进-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、第31卷第6期计算机应用研究V01.31No.62014年6月ApplicationResearchofComputersJun.2014基于密度的局部离群数据挖掘方法的改进王茜,刘书志(重庆大学计算机学院,重庆400044)摘要:针对传统局部离群点检测算法的局限性进行了研究,提出了一种新的有效的离群数据挖掘算法。该算法在寻找数据点的近邻区域时采用了基于影响空间的局部离群点检测(INFLO)中影响空间的概念,然后在计算数据点的离群因子时,根据基于链接的离群点检测(COF)中链式距离的思想,提出了基于相似k距离邻居序列(SKDNS)的离群因子计算方法。通过对比该算法和
2、其他经典局部离群点检测算法在不同数据分布情况下的挖掘结果,该算法比LOF、INFLO和COF算法的离群挖掘准确性更高,能有效克服LOF算法的不足,提高局部离群数据挖掘的准确性和多样性。关键词:离群数据挖掘;影响空间;链式距离;相似k距离邻居序列;离群因子中图分类号:TP311.13;TP391文献标志码:A文章编号:1001—3695(2014)06—1693—04doi:10.3969/j.issn.1001—3695.2014.06.021ImprovementoflocaloutliersminingbasedondensityWANGQian,LIUShu—
3、zhi(CollegeofComputerScience,ChongqingUniversity,Chongqing400044,China)Abstract:Studyingonthelimitationoftraditionallocaloutliersminingalgorithm,thispaperproposedanovelandeffectivealgorithm.Thealgorithmusedtheconceptofinfluencedspaceininfluencedoutliernessbasedalgorithm(INFLO)tofindthe
4、neighborhoodforeveryobject.Andaccordingtothethoughtsofchainingdistanceinconnectivitybasedoutlierfactor(COF),itproposedtheconceptofsimilark_distanceneighborseries(SKDNS)tocomputetheoutlierfactor.Comparingtheoutliersminingresultsofthealgorithmandotherlocaloutliersminingalgorithmsindiffer
5、entdatadistribution,itcandetecttheoutliersmoreaccurately,verifyingthatthealgorithmcanovercometheshortcomingsofLOFeficientlyandimprovetheeffectivenessanddiversityoflocaloutliersmining.Keywords:outliersdetection;influencedspace;chainingdistance;similarkdistanceneighborseries;outlierfacto
6、r_基于深度的方法是把每一个数据对象看做空间中的一个0引言点,然后采用空间几何学的方法为每一个点计算深度,深度较小的点成为离群点的可能性较大,但是这种方法对数据的维度数据挖掘是当今计算机研究领域中的一个热点问题,它的很敏感,对高维数据的运行效率较低。基于偏离的离群挖意义在于从海量数据中挖掘出有效的、新颖的、有潜在应用价掘首先要提取所要研究数据集的主要特征,然后把那些与值的且最终可以被人们所理解的知识。传统的数据挖掘关注的是数据集中大部分数据所遵从的模式,如频繁模式和关联数据集主要特征差别较大的数据元素定义为离群点,由于通常规则的发现、类别的判定和描述、聚类分析等,离
7、群数据挖掘则所研究的数据量比较大且维数比较高,因而比较难以发现数据是从海量数据中发现相对稀疏和孤立的异常数据。Hawkins所蕴涵的特征,故基于偏离的方法只停留在理论阶段,实际应在20世纪80年代给出了一个比较接近离群点本质的定义:用比较少。基于距离的离群数据挖掘最早是由Knorr等“离群点与其他点如此不同,以至于让人们怀疑它是由另一个人’提出来的,离群点被定义为与数据集中大多数数据的距不同的机制产生的。”离群数据挖掘在实际生活中有很多重要离都大于某个阈值的点。Ramaswamy等人在此基础上提出的应用,如金融欺诈检测E3]、网络入侵监控、医学领域中发了K最近邻
此文档下载收益归作者所有