k均值算法初始聚类中心选取相关问题研究

k均值算法初始聚类中心选取相关问题研究

ID:33407879

大小:6.18 MB

页数:64页

时间:2019-02-25

k均值算法初始聚类中心选取相关问题研究_第1页
k均值算法初始聚类中心选取相关问题研究_第2页
k均值算法初始聚类中心选取相关问题研究_第3页
k均值算法初始聚类中心选取相关问题研究_第4页
k均值算法初始聚类中心选取相关问题研究_第5页
资源描述:

《k均值算法初始聚类中心选取相关问题研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含获得兰趔童通太堂或其他教育机构的学位或证j

2、专而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名渤三钮签字日期:肿6月烨日学位论文版权使用授权书本学位论文作者完全了解兰趔童适太堂有关保留、使用学位论文的规定。特授权兰盟童适太堂可以将学位论文的全部或部分内容编入有关数据库进行检索

3、,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本授权说明)学位做作者虢榴珀签字日期:步h,6月胂日l吵日舻幻古胁诤占名期签日师字导签)硕士学位论文K均值算法初始聚类中心选取相关问题研究StudyonProblemstoSelectInitialClusterCentersofTheK·meansAlgorithm作者学科、学指导完成姓名:专业:口丐:教师:日期:奎主渔让篡数堂Q2Q窆559奎塞2Q12生三旦兰州交通

4、大学LanzhouJiaotongUniversity目kI羔州交通人学硕十’、芦位论文摘要聚类分析是数据挖掘的功能之一,是在训练数据不提供类标号的情况下按照最大化类内对象间的相似性、最小化不同类对象之间的相似性的原则聚类和分组数据。目前,存在着大量的聚类算法,K均值算法是应用广泛的聚类算法之一。K均值算法的优点是:算法思想简单;时间复杂度接近线性;对大规模数据的挖掘具有可伸缩性,但是该算法存在如下缺点:对聚类初始值的依赖;聚类个数K需要预先给定;准则函数易陷入局部极小;对离群点敏感等等。本文重点针对K均值

5、算法对初始聚类中心的依赖性,提出了基于密度选取K个初始聚类中心的算法。其主要思想是:在一个数据集合里,高密度区域的数据对象被低密度区域的对象所分割,处于低密度区域的数据对象通常被认为是噪声点。首先根据两个参数(邻域半径e、高密度点在邻域半径内至少包含数据对象的数目MinPts),划分高低密度点,然后取高密度点集合G中相距最远的K个点作为初始聚类中心。通过在不同数据集(来自UCI数据库)上对两个算法的多次对比实验,验证了基于密度选取K个初始聚类中心的K均值算法比传统的K均值算法聚类结果准确率更高,更稳定。研究

6、进一步给出了基于距离矩阵D确定e和MinPts参数值的方法。主要思想是:通过距离矩阵计算每个对象距离的中间值(median),然后取这些中间值的平均值作为e的值。计算每个对象邻域半径e内对象的个数,将这些个数相加,再除以2*n,获得参数MinPts的值,其中n是数据集对象的个数。通过检验聚类结果是否理想或者以文献已给定的经验值作正确性判断依据,两种检验方法的多次实验都验证了计算两个参数值的算法是可用的。关键词:K均值算法:初始聚类中心:密度;邻域半径;高密度点论文类型:基础研究K均值算法初始聚类中心选取相关

7、问题研究AbstractClusteranalysis,oneofthefunctionsofdatamining,analyzes,clustersandgroupsthedataobjects,accordingtotheprincipleofmaximizingthesimilaritybetweentheclassobjectsandminimizingthesimilaritybetweendifferentclassobjects,whenthetrainingdatadoesnotprovid

8、eclasslabel.Atpresent,therearealargenumberofclusteringalgorithms,andK—meansalgorithmisoneofthewidely—usedclusteringalgorithms.K—meansalgorithmhasthefollowingadvantages:easytobeachieved,almostlineartimecomplexity,scalableandhighefficientindisposingofbigdata

9、set.However,italsohassomeweakness:relyingoninitialconditions,requiringtheusertogivethenumberofclustersbeforehand,criterionfunctionoftentrappedinlocalminimum,andsensitivetooutliers.Theresearchmainlyimprovesk—m

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。