基于storm的流数据聚类挖掘算法的研究

基于storm的流数据聚类挖掘算法的研究

ID:35180970

大小:3.56 MB

页数:63页

时间:2019-03-21

基于storm的流数据聚类挖掘算法的研究_第1页
基于storm的流数据聚类挖掘算法的研究_第2页
基于storm的流数据聚类挖掘算法的研究_第3页
基于storm的流数据聚类挖掘算法的研究_第4页
基于storm的流数据聚类挖掘算法的研究_第5页
资源描述:

《基于storm的流数据聚类挖掘算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.,£X、...':聲r..;群较炎敵、fVI-g與.,;碍-'?.:.變卷.T’'豁享‘马;:^聲5,灣^P、等'芦^-^門每_一衰爲扭一I黛罢奋單-^庫;一苗人;善.勝*雌豪V.?:l秦.::知,;聲?譬.:f.為套':接^.£Vt樂、:'墙或遵1,心;'¥杳谱.V-故.?-:诚,校;V.;.'墙.顧苗似V急^..V'-^裹:带:译片貧4都&才皆震:-.寡,;盛著今作-;iI巧聲-苗黎.義警^/.一:'I聲7M/巧貧女^均度?讼^叫.扛.':燕,.'C也*今I,'薪.!‘奇,过蚕

2、‘歎-护.;k:..赛<A禾,<'.星苗.;鑽.讓,麵.琴.t..:援.為?蠻詔f讀.哪霉參^意-^.批成哪马1為W的娜谨臟峨臘|诚’'..,"_.争弓,v,:...帮^V..?V:/.v.豆.v幕.,C二v:",巧焉:M嗔;热>.氣诚麵.:l资f声:.蟲;中風.7去‘後‘,去為'戎穿’惠V^卢。号祖震M舊.起^-\"窮名机了..终。祭一'李目教搬.师一這可^科业计論峨件塊论讓w-:诗^究向基巧瞧備惟诚I.讓.\V’工:'别撑硕r{-'^期>畔叫1..?/」

3、;':.;;参挺棄:.1.;镑%‘一r.房'梟毅一,亦,;蘇苗.>裳’...i申葛,擦轻荒囊替療睾?.i繁貧ResearchonStreamDataClusteringAlgorithmBasedonStormThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByMaKeSupervisor:Prof.LiLingjuanFebrua

4、ry2016摘要时至今日,云计算、物联网等技术正在兴起并且日益成熟,各种信息服务与技术产生的每日以TB甚至PB计的数据宣告着大数据时代已经来到,大数据具有大量、快速、多样、价值密度低等特点,如何高效地处理这类数据是我们必须面对的问题。本文基于大数据环境中的流处理模式,面向海量流数据,研究了针对流数据的聚类方法,既研究了提高聚类精度的方法,又研究了提高聚类算法计算效率的方法即流聚类算法的分布式并行化,并基于实时流计算平台Storm设计了流聚类挖掘算法的分布式并行化实现方案并进行了实现。在提高聚类精度的方面,本文对经典流聚类

5、算法CluStream进行了改进。鉴于马氏距离考虑到了属性之间的联系,同时不受数据属性量纲的影响,用马氏距离替代欧氏距离来计算数据之间的相异度,设计了基于马氏距离的流聚类算法M-Clustering(Mahalanobis-Clustering),并在Storm仿真环境下设计了对比实验,实验结果表明,与CluStream算法相比,M-Clustering算法能够有效地提高对流数据的聚类精度。在流聚类算法的分布式并行化方面,本文针对CluStream算法的微聚类部分,设计了分布式并行化的实时流聚类算法DPRCluStrea

6、m(DistriburedParallelizedRealTimeClusteringAlgorithmforSreamData),将数据的在线微聚类部分拆分成局部与全局两个部分分别做计算,其中局部部分由多线程并行处理。基于Storm集群的实验结果表明,DPRCluStream算法的聚类精度趋近于静态聚类算法k-means,并且随着并行化线程的增加聚类精度能够保持稳定,计算效率呈近线性提升。与当前大数据环境相适应,本文的研究内容较为先进且研究成果具有一定的理论价值与实用性。关键词:流数据,聚类,马氏距离,分布式,Stor

7、mIAbstractNowadaysthetechnologyofcloudcomputingandInternetofThings(IoT)becomesincreasinglymature.Data,whichproducedbyvarietyofmessageserviceandtechnologydailyTBorevenPB,meansthetimeofbigdataiscoming.ThefeaturesofBigdataincludebigvolume,highspeed,manifoldandlowval

8、uedensity.Thus,howtodealwiththiskindofdataisanissueweshouldface.Thethesis,basedonthestreamprocessingmodelinbigdataenvironment,focusedontheresearchofstreamdatac

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。