基于衰减窗口与剪枝维度树的实时数据流聚类研究

基于衰减窗口与剪枝维度树的实时数据流聚类研究

ID:33386791

大小:4.22 MB

页数:59页

时间:2019-02-25

基于衰减窗口与剪枝维度树的实时数据流聚类研究_第1页
基于衰减窗口与剪枝维度树的实时数据流聚类研究_第2页
基于衰减窗口与剪枝维度树的实时数据流聚类研究_第3页
基于衰减窗口与剪枝维度树的实时数据流聚类研究_第4页
基于衰减窗口与剪枝维度树的实时数据流聚类研究_第5页
资源描述:

《基于衰减窗口与剪枝维度树的实时数据流聚类研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、武汉科技大学硕士学位论文基于衰减窗口与剪枝维度树的实时数据流聚类研究姓名:曾伟申请学位级别:硕士专业:计算机应用技术指导教师:张晓龙20090420武汉科技大学硕士学位论文第1页摘要实时数据流挖掘是目前数据挖掘与数据库领域的新兴研究热点,针对实时数据流的聚类分析技术也是该研究中最具有挑战性的难题之一。本文首先介绍了基于实时数据流的数据挖掘和知识发现的研究背景以及该领域现有的主要研究分支:聚类、分类、频繁模式挖掘、关联规则分析等。然后综述了实时数据流聚类技术的最新研究进展,在介绍实时数据流聚类相关理论和常用技术的基础上,对现有各种代

2、表性实时数据流聚类算法的优势和不足进行了系统地分析,从处理速度、聚类形状、演化分析、高维性能及噪声健壮性五个方面对这些聚类算法的性能进行了深入地比较研究,探讨了基于聚类的实时数据流演化分析方法及其局限性。针对现有实时数据流聚类算法存在的处理速度慢、系统消耗大以及不能识别任意形状聚类等问题,本文设计并实现了一种基于衰减窗口与密度维度树的实时数据流聚类算法PDS仃e锄,该算法首先对数据空间进行网格划分,将数据流依次映射到网格空间中,采用一种改进的维度树结构在线维护和更新数据流的概要数据结构,同时设计了一种周期性剪枝策略,周期性地剪去维

3、度树中的稀疏网格,以降低系统消耗,最后采用深度优先搜索算法在线处理聚类请求,通过不同时刻的聚类结果比对来实现数据流的演化分析。基于人工数据集和真实数据集的实验表明,本研究所提出的聚类算法PDS仃e锄可以有效地发现实时数据流在任意时刻具有任意形状的聚类,并且聚类效果较好、内存消耗少、处理速度快,具有较好的计算精度。关键词:数据流挖掘;聚类分析;衰减窗口;密度维度树;剪枝策略第1I页武汉科技大学硕士学位论文AbstractMiningreal-timedatastreamisanovelresearchhotspotinthefiel

4、dofdatamininganddatabase.Techniqueofclusteringanalysisbasedonreal—timedatastreamisoneofthemostchallengingproblemsinthisresearchfield.Inthisthesis,Researchbackgroundandmainresearchbranchesinthisresearch,forexample,clustering,classification,frequencyitemminingandassocia

5、tionrulesanalysis,areintroducedfirstly.Thenewestdevelopmentofreal-timedatastreamclusteringresearchisoverviewed.Itintroducesinterrelatedtheoryandconlnlontechniquesofreal-timedatastreamclustering.Thenstrengthsandweaknessesofdifferent—kindrepresentationalalgorithmsareana

6、lyzedsystematically.Performancesofthesealgorithmsarecomparedsubsequentlyinfiveaspects:executionspeed,shapeofcluster,evolvinganalysis,high-dimensionandhalenessofnoise.Datastreamevolvinganalysisbasedonclusteringanditslimitationsarepresented.Inordertosolvesomeproblemsofp

7、resentalgorithms,suchaslowprocessingspeed,highsystemconsumptionanddisabledtoarbitraryclustershape,anovelreal·timedatastreamclusteringalgorithm,calledPDStream,isproposedinthisthesis.PDStreamisbasedondampedwindowanddensitydimensiontree.PDStreamfirstlydividesdataspaceint

8、o鲥dsandmapsallthedatapointsintothe舀rdspaceorderly,andthenanimproveddimensiontreestructureisusedtomaintainandupdatethesynopsi

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。