基于相邻关系的聚类和离群点检测算法的研究

基于相邻关系的聚类和离群点检测算法的研究

ID:33186239

大小:1.83 MB

页数:63页

时间:2019-02-21

基于相邻关系的聚类和离群点检测算法的研究_第1页
基于相邻关系的聚类和离群点检测算法的研究_第2页
基于相邻关系的聚类和离群点检测算法的研究_第3页
基于相邻关系的聚类和离群点检测算法的研究_第4页
基于相邻关系的聚类和离群点检测算法的研究_第5页
资源描述:

《基于相邻关系的聚类和离群点检测算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、y951730槿旦大学硕士学位论文基于相邻关系的聚类和离群点检测算法的研究院系(所):计算机科学与工程系专业:计算机软件与理论姓名:赵碉指导教师:周水庚教授完成日期:2006年5月11日基于相邻关系的聚类与离群卢检测算法的研究中文摘要摘要聚类分析和离群点检测都是数据挖掘邻域的主要研究方向之一。随着信息技术在科学研究、生产管理及商务应用中的日益普及,聚类分析和离群点检测在大量日常数据的挖掘分析中的重要地位也日渐显现。本文通过对空间数据间的相邻关系的深入研究,提出利用数据空间内局部密度不同的特性,进行聚类分析和离群点检测的算法,主要贡献如下:1.提出了一种新颖的基于相邻关系

2、的聚类算法——-NBC算法。与传统的基于密度的聚类算法使用全局密度门限值不同,该算法引入邻基密度系数的概念,对每个数据对象周围的相对局部密度进行考察和度量。和以往的算法相比,NBC算法能够更有效地识别出同一数据集中任意形状、不同密度的簇,很好地解决了使以往算法失效的局部密度不均匀问题和多粒度问题。2.提出了一种高效的基于相邻关系的离群点检测算法——-NOF算法。该算法充分利用数据对象之间的相邻关系来度量数据对象的孤立程度。与基于距离的方法相比,它解决了局部离群点不能被准确识别的问题;与基于密度的方法相比,它更简练、直观和有效,并在一些LOF算法失效的数据集上依然能准确识

3、别离群点。在大数据集和高维数据集的应用中,NOF算法在有比较高的效率和比较好的可扩展性。关键词:数据挖掘,聚类分析,离群点检测,算法◆基于相邻关系的聚类与离群电检测算珐的研究英文摘要AbstractClusteringanalysisandoutlierdetectmnaletwoimportantresearchtopicsofknowledgediscoveryindatabases(KDD),andarewidelyapplicableinmanyareas,suchasexploratorydataanalysis,busmessintelligence,and

4、imageprocessingetc.Thisthesisintroducesanovelconceptoflocaldensityofspatialdatatounveiltheneighborhoodrelalaonshipbetweendataobjects,whichisusedtodiscoverclustersandtodetectoutlicrsinlarge·scaledatabases.Majorcontributionsofttusthesisa∞asfollows:1.Anewclustenngalgorithm,NBC,i.e.,Neighbor

5、hoodBasedClusteringispresented,whichdiscoversclustersbasedonthenelghborhoodcharacteristicsofdataTheNBCalgorithmhasthefollowingadvantages:(1)beingeffectiveindiscoveringclustersofarbitraryshapeanddifferentdensities;(2)requiringfewerinputparametersthantheexistingclusteringalgorithms;(3)bein

6、gabletoclusterbothlargeandhxgh-dimensionaldatabasesefficiently.2.Anovelalgorithmtodetectlocalouthersinlargedatabasebyutilizingneighborhoodpropertyofdataobjectsisproposed.Thenewalgorithmdoesnotneeddirectcomputationofdistanceanddensity.Comparedwiththeexistingmethods,itISsimplerandmoreintui

7、tive,anditisadvantageousoverthedensity-basedmethodbothinefficiencyandeffectiveness.Besides,italSOhasgoodscalabilityonhigh-dimensionaldatasets.Keywords:datanuning,clusteringanalysis,outlierdetection,algorithmII■基于相邻关系的聚类与离群卢柃测算法的研究引言第一章引言1.1数据挖掘及其分类进入20世纪以后,随着科学技术的迅猛发展,人类文

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。