文献综述--基于数据挖掘的聚类算法研究综述

文献综述--基于数据挖掘的聚类算法研究综述

ID:9668143

大小:53.00 KB

页数:5页

时间:2018-05-05

文献综述--基于数据挖掘的聚类算法研究综述_第1页
文献综述--基于数据挖掘的聚类算法研究综述_第2页
文献综述--基于数据挖掘的聚类算法研究综述_第3页
文献综述--基于数据挖掘的聚类算法研究综述_第4页
文献综述--基于数据挖掘的聚类算法研究综述_第5页
资源描述:

《文献综述--基于数据挖掘的聚类算法研究综述》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、文献综述学生姓名:学号:专业:网络工程班级:文献综述题目:基于数据挖掘的聚类算法研究综述引用文献:中文7篇;英文7篇;其中期刊:10种;专著 3本;引用文献时间跨度:1967年~2015年指导教师审阅签名:摘要:现代社会是一个高速发展的社会,交通便利,信息流通,人与人之间的交流越来越密切,在这样一个环境下,数据也在爆炸式增长。为了从海量的数据中提取有价值的信息,数据挖掘应运而生。而聚类算法作为数据挖掘的重要工具之一,在生物学、商务和WEB文档分类等方面得到广泛的应用。本文就数据挖掘中的聚类算法展开讨论。首先总结了基于数据挖掘的聚类算法的研究的目的和意义、国内外研究现状,然后

2、简要阐述并归纳了传统的聚类算法,最后分析了数据挖掘领域内聚类算法的新发展。Abstract:Modernsocietyisahigh-speeddevelopmentofthesociety.Theconvenienttransportation,theflowinginformationandthecommunicationbetweenpeoplewhichiscloserandcloserarechangingourlives.Insuchanenvironment,thedataisalsointheexplosivegrowth.Inordertoextractv

3、aluableinformationfromthevastamountofdata,dataminingemergesasthetimesrequire.Clusteringalgorithm,asoneoftheimportanttoolsofdatamining,hasbeenwidelyusedinbiology,businessandWEBdocumentclassification.Inthispaper,wediscusstheclusteringalgorithmindatamining.Firstly,wesummarizethebasedoncluster

4、ingalgorithmofdataminingresearchpurposeandsignificance,thedomesticandforeignresearchstatus.Then,webrieflyanalyzedandsummarizedthetraditionalclusteringalgorithm.Finally,thepaperanalyzesthenewdevelopmentsinthefieldofclassclusteringalgorithmofdatamining.关键词:数据挖掘;聚类算法;新发展引言:资料显示,目前每天全球互联网流量累计达

5、2.5EB。人们已经明显感受到了大数据的来势凶猛。大数据不是掌握的数据越多越好,大数据的任务应当是从海量的数据中挖掘出有用的信息。数据挖掘有很多方法,其中聚类方法是数据挖掘应用最多的方法之一,所以本文针对基于数据挖掘的聚类算法的研究状况进行总结。1.研究的目的和意义我国古时的一句名言“物以类聚,人以群分”就体现了聚类思想,随着科技不断进步,这一思想也被发扬光大。聚类分析就是将聚类对象按照一定的规则分类,在某一类内,所有的对象之间的差别较小,而在不同的类,聚类对象的差别就相对而言较大一些了。[1]聚类算法的目的是寻找数据中潜在的自然分组结构,而聚类分析则是用已有的数学方法对所

6、给的数据对象进行分类以及表示不同的类的相似度,是在数据不做任何假设时进行分析计算的工具,它是机器学习中获取知识的非常重要的步骤。通过聚类分析,人们可以将数据按照一定的规则分类,以便于挖掘出有用的信息。根据潜在的各种不同的业务需要,因而对聚类算法提出了各种要求,具体如下[2]:(1)可伸缩性:很多算法当只有少量的数据对象时聚类效果很好,对于大数据集时就会产生不同的错误。(2)具有处理不同类型属性的能力:可以处理不同种类的数据,如数值型或非数值型、离散或连续域内的数据等。(3)能够发现任意形状的聚类:一般的聚类方法用欧式距离来衡量数据的相似度,但是这样的算法只能发现具有相似密度

7、和尺度的球状簇,而这无法满足各种不同应用的需要,好的聚类算法应该能够有效而正确地发现任意形状的聚类。(4)对输入参数不依赖:在聚类分析中,有很多聚类算法需要用户输入一些参数,聚类结果却对输入的参数非常敏感,只要参数稍有变动,结果就大不相同。(5)聚类结果对输入数据顺序的低敏感性:对于同一个数据集,只是改变了输入数据的顺序,用同一个算法进行聚类,聚类效果却有所不同,这在实际应用中是不应当存在的。(6)处理噪声和高维数据的能力:现实世界里,大部分的数据都不是完美的,可能有各种各样的问题,孤立点、空缺等,好的方法应当可以

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。