子空间孤立点检测算法研究

子空间孤立点检测算法研究

ID:33404925

大小:739.87 KB

页数:70页

时间:2019-02-25

子空间孤立点检测算法研究_第1页
子空间孤立点检测算法研究_第2页
子空间孤立点检测算法研究_第3页
子空间孤立点检测算法研究_第4页
子空间孤立点检测算法研究_第5页
资源描述:

《子空间孤立点检测算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、工学硕士学位论文子空间孤立点检测算法研究张亮燕山大学2010年11月万方数据国内图书分类号:TP311国际图书分类号:654工学硕士学位论文子空间孤立点检测算法研究硕士研究生:张亮导师:刘文远申请学位级别:工学硕士学科、专业:计算机软件与理论所在单位:信息科学与工程学院授予学位单位:燕山大学万方数据ClassifiedIndex:TP311U.D.C.:654DissertationfortheMasterDegreeinEngineeringSTUDYONOUTLIERDETECTIONINSUBSPACE

2、Candidate:ZhangLiangSupervisor:LiuWenyuanAcademicDegreeAppliedfor:MasterofEngineeringSpeciality:ComputerSoftwareandTheoryUniversity:YanshanUniversity万方数据燕山大学硕士学位论文原创性声明本人郑重声明:此处所提交的硕士学位论文《子空间孤立点检测算法研究》,是本人在导师指导下,在燕山大学攻读硕士学位期间独立进行研究工作所取得的成果。据本人所知,论文中除已注明部分外不

3、包含他人已发表或撰写过的研究成果。对本文的研究工作做出重要贡献的个人和集体,均已在文中以明确方式注明。本声明的法律结果将完全由本人承担。作者签字日期:年月日燕山大学硕士学位论文使用授权书《子空间孤立点检测算法研究》系本人在燕山大学攻读硕士学位期间在导师指导下完成的硕士学位论文。本论文的研究成果归燕山大学所有,本人如需发表将署名燕山大学为第一完成单位及相关人员。本人完全了解燕山大学关于保存、使用学位论文的规定,同意学校保留并向有关部门送交论文的复印件和电子版本,允许论文被查阅和借阅。本人授权燕山大学,可以采用影

4、印、缩印或其他复制手段保存论文,可以公布论文的全部或部分内容。保密□,在年解密后适用本授权书。本学位论文属于不保密□。(请在以上相应方框内打“√”)作者签名:日期:年月日导师签名:日期:年月日万方数据摘要孤立点检测是数据挖掘的一个重要研究方向,随着其应用范围的不断扩大,传统的孤立点检测算法遇到了一个最大的障碍,不适应高维数据的特性。研究人员对此给出了几种解决方法,其中子空间挖掘是解决高维数据挖掘的一种有效方法。目前提出的子空间孤立点检测算法还存在很多问题,如算法的检测精度低,参数难以设置等。本文主要针对以上问

5、题,对子空间孤立点检测算法进行了研究。首先,介绍了基于轴平行子空间的孤立点检测算法SOD,针对该算法中的两点不足,提出一种改进算法。一方面通过对每一维的聚集度进行量化,确定各维的参考价值,从而降低了算法结果对参数设定的敏感度。另一方面利用相对距离表示各点到中心值的偏离度,从而更利于不同密度子空间下的孤立点检测。其次,针对现实数据集中聚类个数的未知性,结合基尼熵提出一种基于基尼熵的相关子空间选择方法,并给出相关子空间孤立程度定义,在此基础上提出了基于相关子空间的孤立点检测算法RSOD。该算法降低了对数据集先验知

6、识的要求,不受数据集中聚类个数的限制,无论数据集中包含一个或是多个聚类,算法均可以正确选择相关子空间,并有效检测出孤立点。最后,以四个数据集验证了所提算法的有效性,其中包括人工数据集和真实数据集。关键词数据挖掘;孤立点;高维数据;子空间;熵万方数据AbstractOutlierdetectionhasbecomeahotissueinthefieldofdatamining.Withtheconstantexpansionofitsscopeofapplication,traditionaloutlierde

7、tectionalgorithmshaveencounteredabiggestobstaclethattheycannotmeetthehigh-dimensionaldatacharacteristics.Forthisproblem,researchersproposedseveralmethods.Inthesemethods,subspaceminingisaneffectivemethodforhighdimensionaldatamining.Incurrentlyproposedsubspac

8、eoutlierdetectionalgorithms,therearestillmanyproblems.Forinstance:theaccuracyofthesealgorithmsislow;toselectthealgorithm’sparametersisdifficultwhichleadtoanunstableresult;andsoon.Thispapermainlyforthea

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。