欢迎来到天天文库
浏览记录
ID:35180970
大小:3.56 MB
页数:63页
时间:2019-03-21
《基于storm的流数据聚类挖掘算法的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、.,£X、...':聲r..;群较炎敵、fVI-g與.,;碍-'?.:.變卷.T’'豁享‘马;:^聲5,灣^P、等'芦^-^門每_一衰爲扭一I黛罢奋單-^庫;一苗人;善.勝*雌豪V.?:l秦.::知,;聲?譬.:f.為套':接^.£Vt樂、:'墙或遵1,心;'¥杳谱.V-故.?-:诚,校;V.;.'墙.顧苗似V急^..V'-^裹:带:译片貧4都&才皆震:-.寡,;盛著今作-;iI巧聲-苗黎.義警^/.一:'I聲7M/巧貧女^均度?讼^叫.扛.':燕,.'C也*今I,'薪.!‘奇,过蚕
2、‘歎-护.;k:..赛<A禾,<'.星苗.;鑽.讓,麵.琴.t..:援.為?蠻詔f讀.哪霉參^意-^.批成哪马1為W的娜谨臟峨臘|诚’'..,"_.争弓,v,:...帮^V..?V:/.v.豆.v幕.,C二v:",巧焉:M嗔;热>.氣诚麵.:l资f声:.蟲;中風.7去‘後‘,去為'戎穿’惠V^卢。号祖震M舊.起^-\"窮名机了..终。祭一'李目教搬.师一這可^科业计論峨件塊论讓w-:诗^究向基巧瞧備惟诚I.讓.\V’工:'别撑硕r{-'^期>畔叫1..?/」
3、;':.;;参挺棄:.1.;镑%‘一r.房'梟毅一,亦,;蘇苗.>裳’...i申葛,擦轻荒囊替療睾?.i繁貧ResearchonStreamDataClusteringAlgorithmBasedonStormThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByMaKeSupervisor:Prof.LiLingjuanFebrua
4、ry2016摘要时至今日,云计算、物联网等技术正在兴起并且日益成熟,各种信息服务与技术产生的每日以TB甚至PB计的数据宣告着大数据时代已经来到,大数据具有大量、快速、多样、价值密度低等特点,如何高效地处理这类数据是我们必须面对的问题。本文基于大数据环境中的流处理模式,面向海量流数据,研究了针对流数据的聚类方法,既研究了提高聚类精度的方法,又研究了提高聚类算法计算效率的方法即流聚类算法的分布式并行化,并基于实时流计算平台Storm设计了流聚类挖掘算法的分布式并行化实现方案并进行了实现。在提高聚类精度的方面,本文对经典流聚类
5、算法CluStream进行了改进。鉴于马氏距离考虑到了属性之间的联系,同时不受数据属性量纲的影响,用马氏距离替代欧氏距离来计算数据之间的相异度,设计了基于马氏距离的流聚类算法M-Clustering(Mahalanobis-Clustering),并在Storm仿真环境下设计了对比实验,实验结果表明,与CluStream算法相比,M-Clustering算法能够有效地提高对流数据的聚类精度。在流聚类算法的分布式并行化方面,本文针对CluStream算法的微聚类部分,设计了分布式并行化的实时流聚类算法DPRCluStrea
6、m(DistriburedParallelizedRealTimeClusteringAlgorithmforSreamData),将数据的在线微聚类部分拆分成局部与全局两个部分分别做计算,其中局部部分由多线程并行处理。基于Storm集群的实验结果表明,DPRCluStream算法的聚类精度趋近于静态聚类算法k-means,并且随着并行化线程的增加聚类精度能够保持稳定,计算效率呈近线性提升。与当前大数据环境相适应,本文的研究内容较为先进且研究成果具有一定的理论价值与实用性。关键词:流数据,聚类,马氏距离,分布式,Stor
7、mIAbstractNowadaysthetechnologyofcloudcomputingandInternetofThings(IoT)becomesincreasinglymature.Data,whichproducedbyvarietyofmessageserviceandtechnologydailyTBorevenPB,meansthetimeofbigdataiscoming.ThefeaturesofBigdataincludebigvolume,highspeed,manifoldandlowval
8、uedensity.Thus,howtodealwiththiskindofdataisanissueweshouldface.Thethesis,basedonthestreamprocessingmodelinbigdataenvironment,focusedontheresearchofstreamdatac
此文档下载收益归作者所有