数据挖掘中聚类方法的研究

数据挖掘中聚类方法的研究

ID:32247211

大小:2.93 MB

页数:104页

时间:2019-02-02

数据挖掘中聚类方法的研究_第1页
数据挖掘中聚类方法的研究_第2页
数据挖掘中聚类方法的研究_第3页
数据挖掘中聚类方法的研究_第4页
数据挖掘中聚类方法的研究_第5页
资源描述:

《数据挖掘中聚类方法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、中文摘要面对大规模的、高维数据,如何建立有效、可扩展的聚类数据挖掘算法是数掘挖掘领域的一个研究热点。围绕以卜问题,本文对聚类算法进行了深入研究,主要包括以下几个方面的内容:通过对Kohonen自组织映射模型(sOFM)及其主要改进模型的分析,提出一种树形动态生长自组织模型。其网络结构在训练中动态生成,克服了SOFM网络结构固定化的限制;所生成的网络结点数目远远低于传统的SOFM及动念增长自组织映射模型(GSOM),所需训练周期少,训练效率高;用扩展因子(SF)来控制网络的生长速度,可得到精度不同的聚类结果:由用户选取不同的sF值和输入样本

2、集可以实现数据集的层次聚类。针对基于密度和基于网格聚类方法的缺点,提出一种基于网格、密度及距离的综合聚类方法。通过仿真实验并与现有聚类算法的比较,陔方法能U!别任意形状、大小、不同密度的类;能有效过滤噪声数据;参数设置简单,无需预先给定聚类个数;具有近似线性时间复杂度,执行效率高,适合大规模数据的聚类问题。针对现有层次聚类方法的缺点,提出一种层次聚类方法。该方法首先采用划分方法将数据分成原子簇,然后以这些原子簇为基础,实行自底向上[I"0层次聚类得到最终的聚类结果。其可识别任意形状、大小的类,过滤“噪声”数据:具有近似线性时间复杂度,算法

3、执行效率高,适合大规模数据的聚类问题。将代表点思想与神经网络技术相结合,提出一种基于代表点、密度和丰『

4、l经网络的综合聚类方法。其首先使用代表点来描述数据空问的几何特征,然后将代表点的位置与密度信息同时作为神经网络的输入,通过网络训练得到聚类结果。该方法即继承了代表点方法聚类能力强的特点,而且由于使用了可视化sOFM(viSOM)网络模型,聚类结果的可视性效果好。关键词:数据挖掘,聚类,SOFM,密度方法,网格方法,层次力浊ABSTRACTFacingthemassivevolumeandhighdimensionaldatahowtob

5、uildeffectiveandscalableclusteringalgorithmfordataminingisoneofresearchdirectionsofdatamining.Aimingataboveissues,someclusteringalgorithmshavebeenstudiedsubstantially8,Sfollows:ATree·structuredGrowingSelf-OrganizingM印(TGSOM)modelispresentedasanextendedversionoftheSelf-Org

6、anizingFeatureMap(SOFM),whichhasadynamicstructuregeneratedduringthetrainingprocess.ExperimentsshowthatthismodelCanachievehierarchicalclusteringofadataset,andrequirefewernodestorepresentthedatasetandlessprocessingtimecomparedwithSOFMandGrowingSelf-OrganizingMap(GSOM).Aclus

7、teringalgorithm(CUBN)ispresented,whichintegratesdensity—based,gird-basedanddistance—basedclusteringmethods.TheexperimentalresultsshowthatCUBNCanidentifyclustershavingnon—sphericalshapesandwidevariancesinsize,anditscomputationalcomplexityislinear—time,SOthealgorithmfacilit

8、atestheclusteringofaverylargedataset.Aclusteringalgorithm(CMM)ispresented,whichismorerobusttooutliers,andCanidentifyclustershavingnon—sphericalshapesandwidevariancesinsize.CMMachievesthosebyrepresentingeachclusterusingmultiplemedoids.CMMisalsoalinear—timeclusteringalgorit

9、hm,andtherefore,itfacilitatestheclusteringofaverylargedataset.Aclusteringalgorithm(RDVS)ispresen

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。