欢迎来到天天文库
浏览记录
ID:33955549
大小:2.73 MB
页数:57页
时间:2019-03-02
《基于网格和密度的数据流聚类算法研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、武汉理工大学硕士学位论文基于网格和密度的数据流聚类算法研究姓名:李敏申请学位级别:硕士专业:计算机软件与理论指导教师:胡燕20090401摘要近年来,由于计算机及应用技术的高速发展,人们获取数据的能力得到极大的提高,数据流作为一类重要的数据来源,受到越来越多的关注。数据流是连续的、有序的、快速变化的、海量的数据。数据流不同于传统的存储在磁盘上的静态的数据,而是一类新的数据对象。当前在数据挖掘领域中,数据流已经成为一个研究热点。数据流聚类分析成为聚类研究的一个重要方向。本文的工作重点就是设计并开发一个具有较快速度和
2、很高准确性的数据流聚类算法。为此本文做了这些工作:介绍了课题的相关背景与意义;总结了目前比较成熟的各种聚类算法的优缺点和适用范围:重点研究了数据流的特点和处理数据流聚类的关键技术点;并在此基础上;通过修改摘要数据结构的方法、设计并实现了基于网格和密度的数据流聚类算法GDE.Stream(GridandDensitybasedEvolvingStream),该算法具有以下特点:1.借鉴CluStream算法处理数据流的框架,将系统分为在线层和离线层。在线层快速处理数据流,并将相关信息保存在摘要数据结构中;离线层在摘
3、要数据上进行计算提供精确聚类,以达到聚类准确度和算法速度的平衡。2.利用网格来保存数据流的特征信息,除记录其统计信息外,还加入了记录其空间信息的数据结构,能减少数据流信息丢失。3.在在线层中,利用摘要数据结构记录的空间信息,数据流读取算法比较新数据到相关网格的距离,并把新记录映射到正确网格中,能解决部分网格边缘信息丢失的问题,比较准确地记录数据流信息。4.在离线层中,采用基于密度的聚类算法,系统能发现任意形状的数据集;通过引入网格帧和演化差等概念,系统能满足用户对历史信息聚类和演化分析的需求。基于人造数据集和真实
4、数据集的实验表明,算法具有较好的适用性和准确性,能对数据流进行高效的聚类分析。关键词:数据流、聚类、双层处理模型、网格、密度AbstractInrecentyears,becauseoftherapiddevelopmentofcomputerandapplicationtechnology,people’Sabilityofobtainingdataimprovesgreatly.DataStreamisatypeofimportantdatasource,andissubjectedtomoreandmore
5、concem.Streamdataisakindofcontinuous,ordered,changingfastandhugeamountdata.Itisquiteanewobjectthatisdifferentfromtraditionalstaticdatastoredonthedisk.Currently,dataminingondatastreambecomesahotresearchfield.Clusteringdatastreamisoneofthehottestresearchpointso
6、nit.Onetargetonthisthesisistodesignanddevelopadatastreamclusteringalgorithm,whichisaccuracyandhigh-speed.Inordertoreachthis,wehavedonesomeworkasfollows.Backgroundandrelevantworkondatastreamminingisdiscussed.Popularclusteringalgorithmsaresummarized.Thecharacte
7、risticsofdatastreamandkeytechnicalpointsondatastreamclusteringareresearched.Onthebasisofthese,weproposeGDE-Stream(GridandDensitybasedEvolvingStream)algorithm,whichisaframeworkbasedon酣danddensity.Bymodifyingthesynopsisdatastructure,Thisalgorithmhasthefollowing
8、characteristics.1.BorrowingtheframeworkfromCluStreamalgorithm,GDE—Streamisdividedintoonlinelayerandofflinelayer.Onlinelayerreadsdatastreamrapidly,andstoresrelativeinformationbysynopsisdat
此文档下载收益归作者所有