数据挖掘k-均值算法实现 毕业论文

数据挖掘k-均值算法实现 毕业论文

ID:339305

大小:470.80 KB

页数:35页

时间:2017-07-25

数据挖掘k-均值算法实现  毕业论文_第1页
数据挖掘k-均值算法实现  毕业论文_第2页
数据挖掘k-均值算法实现  毕业论文_第3页
数据挖掘k-均值算法实现  毕业论文_第4页
数据挖掘k-均值算法实现  毕业论文_第5页
资源描述:

《数据挖掘k-均值算法实现 毕业论文》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科生毕业论文设计数据挖掘K-均值算法实现作者姓名:指导教师:所在学院:数学与信息科学学院专业(系):计算机科学与技术班级(届):2013届计算机班二零一三年五月二日目录中文摘要、关键字11绪论31.1本文研究的背景和意义31.2聚类分析国内外研究现状51.3本文所做的主要工作72聚类算法的分析与研究82.1数据挖掘简介82.2聚类的基本知识82.2.1类的定义及表示92.2.2聚类的相似度量方法92.2.3聚类间的距离测度函数112.2.4聚类分析的一般步骤122.3常用的聚类分析的方法介绍132.3.1基于划分的方法132.3.2基于密度的方法132.3.

2、3基于层次的算法132.3.4基于模型的算法142.3.5基于网格的算法142.4常用的划分聚类算法的分析142.4.1K-均值聚类算法152.4.2K-中心聚类法152.5本章小结163K一均值聚类算法的研究173.1K-均值聚类算法介绍173.1.1K一均值聚类算法基本思想173.1.2K一均值聚类算法主要流程173.2K-均值聚类算法的主要缺陷及分析183.3本章小结194K-均值聚类算法的实验204.1实验结果分析204.2本章小结255总结与展望265.1总结255.2展望26参考文献28英文摘要、关键字31论文题目:数据挖掘K均值算法实现数学与信息

3、科学学院计算机科学与技术专业指导教师:郭瑞强作者:郝蓓摘要:随着互联网技术的迅速发展,现在的人们每一天都会面临例如文本、图像、视频、音频等各种数据形式,这些数据的数据量的大小是很惊人的。怎样能够很快的并且高效地从这些大量数据中挖掘提炼出它所蕴含的价值,成为现在人们特别关注并且需要马上解决的问题。数据挖掘(DataMining,DM)正是因为这个才慢慢诞生出来。数据挖掘经过一段时间的迅猛发展,诞生出了大量的理论结果和现实使用成果,它提供了许多工具和卓有成效的方法来解决问题。数据挖掘中有一项是很重要的研究领域,那就是聚类分析,这是一种对数据进行按照不同的依据将数据

4、进行分组或者将数据进行划分的方式。聚类无论在生物科学研究,还是在商务贸易中、图像分析处理、网页内容分类等其他日常生活的领域都得到了很好的应用。根据使用的数据类型、使用的功能的不同、聚类需求的不同,目前的聚类算法大概有以下几种:基于划分的算法、基于层次的算法、基于密度的的算法、基于模型的算法以及基于网格的算法。在这之中,基于划分的K-均值聚类算法是目前研究最成熟传统经典的算法。K-均值算法的应用领域特别广泛,覆盖范围涉及语音频率压缩还有图像及文本聚类,另外在数据预处理和神经网络结构的任务分解等也发挥其重要用途。本文所做的工作有:本文第一部分:详细介绍了本次论文研

5、究的背景和目的,以及所选题目的考虑思路,还有在当前国际形式下,聚类分析在国际上的地位及国内外研究成果综述,最后介绍了本论文算法实现的内容和论文整体布局安排。第二部分:首先详细描述了数据挖掘的来源发展还有它的概念定义,下面主要介绍聚类分析,包括聚类的基本概念原理等基础性知识,介绍了聚类算法的内部特性,详细描述了几种目前聚类分析的方法,总结比较各个方法的特点及其长短处。最后对本论文所研究的基于划分的聚类算法进一步讨论都有哪几种算法。第三部分:这是本论文的重点,本论文所要讨论的K-均值算法,从它的概念基本思想算法流程等方面对K-均值算法进行详细系统的介绍,并且详细分

6、析了它的优缺点。K-32均值算法对初始值的选取比较敏感和对数据的输入顺序不同也会影响聚类等问题,所以本文针对该问题进行了验证,通过实验证明了这两个因素对聚类结果会有哪些影响。实验表明,K-均值算法对初始值和数据输入顺序很敏感,但是这两个对聚类结果影响的方面不同。本文通过六个实验结果分析得出,改变初始点,对聚类结果的影响不大,只是会改变迭代次数,而且选取初始的连续的几个数据为初始点迭代次数最少,虽然中间间隔的几个数据作为初始点也出现了最小的迭代次数,但这对数据集来说有太多的不确定性,所以还是选择最开始那几个数据为数据聚类初始点;对于改变数据集的输入顺序,聚类结果

7、与之前的有很大的改变,实验结果说明输入顺序不同既影响了聚类结果也影响了迭代次数。通过这些结论为以后用户使用K-均值算法提供了很好的帮助,也为该算法的改进提供了参考。关键词:数据挖掘聚类分析K-means算法实验验证321绪论1.1本文研究的背景和意义近年来,随着科技的进步以及互联网的普及,以计算机为代表的信息技术有了巨大发展,人们产生、发现、整理、利用数据的能力不断提升。到目前为止,数据在我们的日常生活中无处不在,它广泛应用于科学研究、政府日常办公、军事力量分析、企业管理电子商务、统计学分析等等各个领域。虽然我们知道这些数据的重要性,但是随着时间越来越久,我们

8、积累的数据量是不断地在加大,相应的我们

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。