毕业设计（论文）-数据挖掘K-均值算法实现

ID：35584106

大小：122.00 KB

页数：16页

时间：2019-03-30

资源描述：

《毕业设计（论文）-数据挖掘K-均值算法实现》由会员上传分享，免费在线阅读，更多相关内容在学术论文-天天文库。

1、本科生毕业论文（设计）册学　　院：数学与信息科学学院专　　业：计算机科学与技术班　　级：2009级计算机班学　　生：指导教师：河北师范大学本科毕业论文（设计）任务书论文（设计）题目：数据挖掘K-均值算法实现学院：数学与信息科学学院专业：计算机科学与技术班级：2009级计算机班学生姓名：郝蓓学号：2009010915指导教师：郭瑞强职称：副教授1、论文（设计）研究目标及主要任务本文主要研究聚类分析K-均值算法，并对该算法的优缺点进行分析，并通过该算法的缺点通过实验验证，这些敏感的因素对聚类结果具有哪些影响。本文的主要任务是实现K-均值算法，并通过改变不同

2、的初始条件得出算法聚类结果，并对结果进行比对，得出结论。2、论文（设计）的主要内容本文主要介绍了聚类分析，包括它各个方面的性能指标测量函数和常见的聚类方法，着重介绍了基于划分的聚类算法中的K-均值算法，详细分析了该算法的基本思想，算法流程和算法本身的特点，并通过实验实现了该算法，在实现该算法的基础上，对影响聚类结果的两方面因素初始点和数据输入顺序的不同分别进行实验。3、论文（设计）的基础条件及研究路线本文是在C++的基础上实现的K-均值算法，数据集是从数据堂下载的c-fat500-10.txt数据集，在运行实现该算法的基础上，改变初始点和数据输入顺序，

3、进行了六次试验，分别进行实验这两个初始条件的不同会对聚类结果有哪些影响。4、主要参考文献[1]TZhang．R．RamakrishnanandM．ogihara．Anefficientdataclusteringmethodforverylargedatabases．InPror．1996ACM-SlGMODhat．Conf．ManagementofData，Montreal。Canada，June1996：103．114.[2]SambasivamS，TheodosopoulosN．Advanceddataclusteringmethodsofmin

4、ingwebdocuments．IssuesinInformingScienceandInformationTechnology，2006，8(3)：563．579.[3]Z．Huang．ExtensionstotheK-meansalgorithmforclusteringlargedatasetswithcategoricalvalues．DataMiningandKnowledgediscovery,1998，(2)：283-304.AppliedMath，1999，90：3—26．5、计划进度阶段起止日期1确定题目2012年12月——2013年

5、01月2查阅资料2013年01月——2013年02月3论文撰写2013年02月——2013年04月4论文修改2013年04月——2013年05月5论文答辩2013年05月指导教师:年月日教研室主任:年月日河北师范大学本科生毕业论文（设计）开题报告书数学与信息科学学院计算机科学与技术专业2013届学生姓名郝蓓论文（设计）题目数据挖掘K-均值算法实现指导教师郭瑞强专业职称副教授所属教研室软件研究方向数据库课题论证：本文主要是实现K-均值算法，在实现K-均值算法的基础上，对影响聚类结果的初始值选取问题和数据输入顺序的不同，分别通过实验进行验证，并从实验结果得

6、出一般选取数据集开始的几个连续数作为初始中心，有助于提高聚类结果的迭代次数，适当的改变数据的输入顺序也可以改变聚类结果和迭代次数的结论，这些结论可以为我们改变聚类效率提供参考。方案设计：本文主要是用C++语言实现K-均值算法，在实现的基础上，并改变初始簇中心点和数据集的输入顺序的方式，分别实现出不同的结果，并对这些聚类结果进行分析，得出本文需要验证的结论。进度计划：1.确定题目：2012年12月——2013年01月；2.查阅资料：2013年01月——2013年02月；3.论文撰写：2013年02月——2013年04月；4.论文修改：2013年04月——

7、2013年05月；5.论文答辩：2013年05月指导教师意见：指导教师签名：年月日教研室意见：教研室主任签名：年月日河北师范大学本科生毕业论文（设计）文献综述目前，国内对于数据挖掘聚类分析的研究的集中部门还是科研单位和各大高校，国内还没有公司企业专门从事聚类分析的研究，相对于外国来说起步较晚。各大科研机构与高校对聚类的研究主要是对其算法设计并实现，以此为基础对算法改进。目前人们已经在统计分析软件中应用一些聚类分析工具，如SAS等软件。为大型的数据库寻求有效的聚类分析方法是目前聚类分析的主要研究工作，目前研究方向包括以下几个方向：可伸缩性：目前的聚类算法

8、针对小型数据库，数据量是几百范围内的，对于有很庞大数据量的数据库会造成结果的不稳定性，可伸缩性

当前文档最多预览五页，下载文档查看全文

侵权申诉



1 1 2 3 4 5 / 16



此文档下载收益归作者所有

当前文档最多预览五页，下载文档查看全文

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。

毕业设计（论文）-数据挖掘K-均值算法实现

毕业设计（论文）-数据挖掘K-均值算法实现

相关文章

相关标签