欢迎来到天天文库
浏览记录
ID:33780161
大小:3.48 MB
页数:60页
时间:2019-03-01
《基于网格相邻关系的多密度聚类和离异点识别算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、西南交通大学硕士学位论文基于网格相邻关系的多密度聚类和离异点识别算法研究姓名:李光兴申请学位级别:硕士专业:计算机技术指导教师:杨燕20100501西南交通大学硕士研究生学位论文第1页摘要,.聚类分析和离异点识别都是数据挖掘的重要分支。随着聚类分析和离异点识别技术在科学研究、市场分析以及生命科学等众多学科领域广泛的应用,他们在挖掘分析中的重要地位也同渐显现。通过对数据空间的网格单元的相邻关系深入研究,本文提出了利用数据空问中的网格单元间的关系,进行聚类和离异点识别。主要研究工作如下:在分析了网格划分与均匀分布数据投影相异数的关
2、系基础上,提出了划分网格与投影相异数关系定理,并给出了相异数划分网格法。对网格划分数不是整数时,小数部分也提出了处理办法。该划分网格法考虑了数据分布的因素,减少了冗余网格数,简单易行。为了判断相邻单元的关系,定义了一种关于单元质心距离和相对密度的相异函数。按照离异点是在一定范围内偏离其它数据点,离异点所在单元的密度与相邻单元的密度相比可能偏高或偏低的思想,提出了一种基于网格相邻关系的离异点识别算法GAO。该算法用单元问的相对密度和单元质心距离束衡量单元问的离异度,根据离异度确定离异单元和离异点。实验结果表明,该算法能有效地识别
3、出多密度数据集的离异点,算法的效率优于Cell.based算法,且适合大数据集的离异点识别。利用单元的密度和质心能反映单元内数据分布特征,提出了基于网格相邻关系的多密度聚类算法GAMD。该算法用相异函数来衡量单元问的相似度和离异度,用相似度确定边界单元的数据归属,并且聚类的同时进行离异点的识别,有较高的时
4、’日J效率和精度。为检验聚类的有效性,提出了拟合度的概念。实验结果表明,该算法能发现任意形状的簇,并能有效地对多密度数据集进行聚类,聚类和离异点识别结果与数据输入顺序和单元顺序无关。关键词1聚类分析;网格划分;相邻单元;相异
5、函数;离异点:拟合度西南交通大学硕士研究生学位论文第1I页AbstractClusteranalysisandoutlierrecognitionaretheimportantbranchindataminingdomain.Withawiderangeofapplicationsoftheclusteranalysisandtheoutlierrecognitiontechnologyinscientificresearch,marketanalysis,lifesciences,andmanyotherdiscipline
6、s,theirimportantpositionisalsoincreasinglyobvious.Byresearchingonadjacencyrelationsbetweengridunitsindataspace,thethesisproposesanovelclusteringandoutlierrecognitionmethodusinggridunit’Srelationsindataspace.Theresearchworkareasfollows.Basedonanalyzingtherelationbetw
7、eengdddivisionanduniformdistributivedataprojectiondiversity,thethesispresentsarelationshiptheoremofgriddivisionandthedataprojectiondiversity,andadiversitygriddivisionmethod.Itcandealwithfractionwhengriddivisionisnotallinteger.Thisgriddivisionmethodiseasyandfeasibleb
8、ecauseofconsideringdatadistributionandreducingtheredundantgrid.Inordertodeterminetherelationshipbetweenadjacentunits,akindofdiversityfunctionondistanceofcenterofmassandrelativedensityisdefined.Outlieraresomedeviationobjectsofdatapoints.Thethesispresentsalloutlierrec
9、ognitionalgorithmbasedongridadjacencyrelation(GAO),accordingtothedensityofoutlier,unitcomparingtoitsneighborhoodhighorlow.Outlierandoutlie
此文档下载收益归作者所有