数据挖掘中聚类分析算法研究与应用

数据挖掘中聚类分析算法研究与应用

ID:33784249

大小:1008.73 KB

页数:83页

时间:2019-03-01

数据挖掘中聚类分析算法研究与应用_第1页
数据挖掘中聚类分析算法研究与应用_第2页
数据挖掘中聚类分析算法研究与应用_第3页
数据挖掘中聚类分析算法研究与应用_第4页
数据挖掘中聚类分析算法研究与应用_第5页
资源描述:

《数据挖掘中聚类分析算法研究与应用》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA工程硕士学位论文ENGINEERINGMASTERDISSERTATION论文题目数据挖掘中聚类分析算法研究与应用工程领域软件工程指导教师罗惠琼教授作者姓名严勇班学号200531405028分类号密级注1UDC学位论文数据挖掘中聚类分析算法研究与应用(题名和副题名)严勇(作者姓名)指导教师姓名罗惠琼教授电子科技大学成都高军副研究员甘孜州科技情报研究所康定(职务、职称、学位、单位名称及地址)申请专业学位级别硕士专业学位类别工

2、程硕士工程领域名称软件工程提交论文日期2007.10论文答辩日期2007.11学位授予单位和日期电子科技大学答辩委员会主席评阅人2007年月日注1:注明《国际十进分类法UDC》的类独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。签名:日期:年月日关于论文使用授权

3、的说明本学位论文作者完全了解电子科技大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)签名:导师签名:日期:年月日摘要摘要聚类分析是数据挖掘中的一个重要研究领域,是一种数据划分或分组处理的重要手段和方法。目前其研究已深入到数据库、数据挖掘、统计等领域并取得了很大的成绩。聚类分析算法大体上分为:划分的方法、层次

4、的方法、基于密度的方法、基于网格的方法和基于模型的方法。这些算法存在如下的问题:符号属性问题、算法的效率问题、初值的选择问题、对输入顺序的敏感性问题,最优解问题、算法对输入参数的依赖性问题。DBSCAN是一种基于密度的方法,该算法的显著优点是速度快,可以发现任意形状的聚类和噪声点。但是当数据量非常庞大时,该算法对主存要求较高,而且需要定义一个全局变量Eps,如果这个全局变量Eps定义的不好,将会影响聚类质量,尤其是数据分布不均匀时,因此DBSCAN对输入参数Eps是十分依赖的。论文在对DBSCAN算法不足的分析基础上,对DBSCA

5、N算法进行了改进。从DBSCAN算法可以看出,全局变量Eps值影响了聚类质量,尤其是数据分布不均匀时。因此考虑对数据进行一个划分,每一个划分中的数据分布相对较均匀,根据每个划分中数据的分布密集程度来选取Eps值。K-means算法是一种基于划分的聚类算法,它把n个对象划分成K个类,其中的聚类数目k是输入参数,该算法是通过不断地迭代来进行聚类,当算法收敛到一个结束条件时,就终止迭代过程,输出一个聚类结果。但是由于K-means算法在选择初始聚类中心时是随机选取K个点,因此一旦这K个点选取不合理将会误导聚类过程,得到一个不合理的聚类结

6、果。对K-means聚类算法中聚类结果对初始聚类中心的依赖进行了分析和尝试改进,对聚类中心的选取进行了改进。最后在这些工作基础之上,根据康定师专数学系2006级48名学生在2005-2006学年度7门学科的考试分数,采用聚类算法,对学生进行分类。关键词:数据挖掘,聚类,DBSCAN,K-meansIABSTRACTABSTRACTClusteringisanimportantareaofapplicationforavarietyoffieldsincludingdataminingandisanimportantmethodof

7、datapartitionorgrouping.thereare5kindsofclusteringalgorithmincludespartitionalalgorithm,hierarchicalalgorithm,density-basedalgorithm,grid-basedalgorithmandmodel-basedalgorithm.Buttherearemanydisadvantagesintheseclusteringalgorithms,forexample,workingonlyonnumericvalue

8、s,efficiency,sensitivetoinitialstartingconditions,sensitivetotheorderofdatainput,bestsolutions,relyingonparametersinputedand

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。