基于半监督佳点集和leader和k-means聚类算法研究

基于半监督佳点集和leader和k-means聚类算法研究

ID:33730625

大小:2.06 MB

页数:57页

时间:2019-02-28

基于半监督佳点集和leader和k-means聚类算法研究_第1页
基于半监督佳点集和leader和k-means聚类算法研究_第2页
基于半监督佳点集和leader和k-means聚类算法研究_第3页
基于半监督佳点集和leader和k-means聚类算法研究_第4页
基于半监督佳点集和leader和k-means聚类算法研究_第5页
资源描述:

《基于半监督佳点集和leader和k-means聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得钽b救型》其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:K曙签字日期:.劲『『年J月25日学位论文版权使用授权书本学位论文作者完全了魑萄酶保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授樱躺将学位论文的全部或部分内容编入有关数据库进行检索,可以采

2、用影印、缩印或扫描等复制手段保存、汇编学位论文.(保密的学位论文在解密后适用本授权书)学位论文作者签名:-,'≮少K幽签字日期:力11年J月≯‘日学位论文作者毕业去向:工作单位:通讯地址:导师鲐寥施彳签字日期:≥D朋年r月对日电话:邮编:摘要信息技术与互联网的飞速发展,数据库应用规模、范围和深度的不断扩大,人们生产和收集数据的能力的不断提高,导致现实生活中各个领域的数据量以前所未有的速度海量增长着。面对如此庞杂的海量数据,如何找出这些大规模数据之间的内在关联性,从而提取出有用的信息,以建立供人们所用的知识资源,一直是研究者们的热点课题。数据挖掘是指从大量数据中发现隐藏的、有效的、

3、新颖的、对决策有潜在价值的和最终可被理解的模式的过程,其在现实生活的许多领域都有着广泛的应用。聚类分析是数据挖掘三大领域之一,业已被广泛研究了几十年,至今不论在理论还是方法上都取得了丰硕的研究成果。其中以基于划分方法中的K-meaIls聚类算法最为经典。K.me肌s聚类算法的思想简单易行,而且时间复杂性接近线性,同时对大规模数据的挖掘具有高效性和可伸缩性。然而该算法存在着固有的缺陷:如算法对初始中心点敏感;聚类结果易陷入局部最优;算法适用于数值型数据和一般只能发现球状簇等。本文主要研究和分析了经典的K-me锄聚类算法,给出其优缺点和现有的一些改进方法。针对上述谈到的K-mea璐聚

4、类算法的不足,在聚类算法被研究的这几十年,许多学者都给出了相应的改进方法和策略,尤其针对前两种缺陷的改进算法举不胜举。而本文也意在探讨K-meaIls算法的初始中心敏感性,并结合了半监督学习、Leader方法和佳点集理论,提出两种新的初始中心选取方法。论文所做的主要工作包括:1、基于半监督和Leader方法,提出了一种新的选取K-mea硒聚类算法初始中心的方法,即SSLK算法。利用监督信息来改善无监督学习的性能,结合能够保持数据对象本身分布特性的Leadef方法优化了K.meanS聚类算法的初始中心,并改善了由此导致的聚类结果不够稳定的缺陷。2、运用佳点集理论能够得到比随机选取更

5、好的点的优点,再次结合Leader方法,提出一种新的改进K.meaIls的聚类算法。佳点集理论和Leader方法的结合方式从两种算法来体现,分别称为KLG和KGL算法。安徽大学硕士学位论文基于半监督佳点集和Leader的K.me锄s聚类算法研究3、将改进的l江G和KGL算法分别与传统算法和文献中的算法做了相应的比较,并尝试了在K-me锄s算法中仅引入佳点集理论或Leader方法后的效果,同时与KLG和KGL算法做了比较,实验结果和一系列的比较结果表明,改进后的算法具有一定的可行性和有效性,且最终可得出KGL算法优于其他几种算法。关键词:数据挖掘:聚类分析;K.meaIls聚类算法

6、;半监督学习;佳点集理论;Leadef方法UAbstract晰tll舭rapiddeVelopmentoftlleimnnationtechnolog)randmememet,tlledatabaseapplicationh嬲beenellla略ingiIltemofdimensioIl'area觚ddep协,嬲weU雒mecapac毋ofmeproductionandcollectionofdatahaVebeeIliIIlpr0Villg,t11is、^,inleadt0theaccumulationofala玛emⅡnberofdataillvariousfieldsofr

7、eallife.Howt0findtheiIltriIlSicrelationshipbet、)l,eentlleselarge—Scaledat岛soⅡlatthehiddenin_f.0mationcanbeex仃aCted锄dknowledgeresourcesc觚bebuilt'ttlishaSbeenahottopic.DataIIlillingis协eprocedureofe舶僦th培0fimplicit,Vah也∞Ve}andpotentiallyValuablek

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。