k-均值聚类算法的研究与分析

k-均值聚类算法的研究与分析

ID:32941796

大小:2.15 MB

页数:76页

时间:2019-02-17

k-均值聚类算法的研究与分析_第1页
k-均值聚类算法的研究与分析_第2页
k-均值聚类算法的研究与分析_第3页
k-均值聚类算法的研究与分析_第4页
k-均值聚类算法的研究与分析_第5页
资源描述:

《k-均值聚类算法的研究与分析》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明本人声明所呈交的学位论文足本人在导师指导F进行的研究.L:作和取得的研究成果,除厂文中特别加以标注和敛谢之处外,论文巾/fi包含其它人已经发表或撰写过的研究成果,也/fi包含为获得丞洼:圣些太堂或其它教育机构的学位或证书而使用过的材料。与我一同J:作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:{,主累敖签字日期:wf年≯月巧日学位论文版权使用授权书本学位论文作者完全了解丞洼王些太堂有关保留、使用学位论文的规定。特授权丞鎏王业太堂可以将学位论文的全部或部分内容编入有关数据

2、库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:{乏景震奎导师签名:尹眵努签字日期:Ⅵ,f年2-月巧Ft签字日期:沙叮,呜i≥月以卜j学位论文的主要创新点一、在聚类时少量的异常数据常常对最终的结果产生较大影响,本文对异常数据进行了详细的分析和研究,并总结给出了异常数据的特征,在这些特征的基础上给出了异常数据的确定规则,最后结合最优二叉树的思想实现了异常数据的剔除,模拟数据验证了算法可以较为稳

3、定的发现异常数据。二、对基于Huffman树的k.means聚类算法做了详细的研究和分析,找出其容易选择异常数据为初始聚类中心的缺陷,并结合异常数据剔除算法对其加以改进,避免了异常数据被选为初始聚类中心,使选出的初始聚类中心更具有代表性。摘要数据挖掘是信息处理和数据库技术领域的前沿研究课题,是致力于数据分析和发现数据内部蕴含知识的技术。聚类分析是数据挖掘领域中的重要技术之一,是一种数据划分的重要手段和方法:聚类算法也是数据挖掘,模式识别和机器学习等方向的重要内容之一。聚类的应用非常广泛,在市场营销、金融、生物学、地质学和

4、机器学习中都有着重要的作用。本文首先对聚类分析的概念和理论基础进行了阐述;其次重点对k.means聚类算法进行了分析和研究,k-means聚类算法是一种基于划分的方法,它的优点是算法简易、速度快、扩展性好、适用于预处理大规模数据;但是算法也存在不足之处,如算法需要指定聚类的个数和初始聚类中心,还有算法对初始聚类中心的选取依赖性很强,如果初始聚类中心选取不当容易陷入局部最优解等;并且算法对异常数据敏感,如果初始聚类中心中存在异常数据,聚类的最终结果距离正确的结果更是相差甚远。文章还对聚类过程中的异常数据做了全面的分析,把异

5、常数据总结分为了两大类,给出了异常数据的确定规则,在最优二叉树的基础上实现了异常数据的剔除算法,并将其应用于k.means聚类算法的初始中心的选取上,可以在剔除异常数据的同时选取比较有代表性的数据作为初始聚类中心。文章的最后通过matlab编程对改进的算法进行了数值实验分析,实验结果表明算法能够有效的发现并剔除异常数据,选取具有代表性的数据作为初始聚类中心。关键词:聚类分析;异常数据;初始聚类中心;最优二叉树AbstractDataminingtechnologies,whichfocusonanalyzingdataa

6、nddiscoveringknowledgeimplicatedindata,arefrontierresearchtopicsoninformationprocessinganddatabasetechnologies.ClusteringAnalysis,animportantkindoftoolsandmethodsfordatapartition,isoneofthemostimportanttechnologyinfieldsofdatamining,paRemrecognitionandmachinelear

7、ning.Ithasawiderangeofapplicationsincludingmarketing,finance,biological,geology,andmachinelearning.ConceptandtheoreticalbasisofClusteringAnalysisispresentedatthebeginning,andthenK—meansalgorithmonclusteringisanalyzed.Thek-meansalgorithm,whichisbasedonpartition,is

8、simple,fast,extensibleandsuitableforlargescaledatapreprocessing.However,therearemanydeficienciesofthisalgorithm,forexample,thesizeofClusteringandoriginalcluste

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。