欢迎来到天天文库
浏览记录
ID:35102068
大小:3.87 MB
页数:72页
时间:2019-03-17
《面向大数据的流分类挖掘算法及其概念漂移应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、一-.^传!—'一-卢-专—一—单位代码10293密级;公开:一—-.V一心",I'..:.:幾;.為緣京舊顏:'■-.:,V:,vN?,.;:I;巧女#像讼或:1."V,鱗.振^'';..'沪義誤鱗欄'^衾凛'’—.、.是片片iv和至-;Vv讓.茂V識私’'’.'-,,f-.,巧''(,''论文题目;面向大数据的流分类挖掘算古巧,養'I''I-..--V评扭子.古女.呼。:.'.:法及其概念漂移应用研究.,鬻氧皆:;八-讀.
2、V.與‘:'..:.-苗藻萬V产,VV产苗-‘‘鹿学号…3Qimi__.町社躲若迄;:六繞紐苗皆马蔚.’、..莖圭喊;..姓名_—遽t巧Vr沪矿;F為;!'—'..;二述.导.师奎三—_n;/每争;;兵鼓|.信息网络/学科专业1^;硏究方向软件技术在通信网络中的应用户献嫌f?’:身i.工学聰tH其v申请学位类别若):'20巧年4月JJB■论文提交日期;:'’;-‘;V若酱M,.诗沾和PU纖瑜分/''-..-',’与‘^巧:'-V护度.叛.轉与>?麵一T
3、heresearchonclassificationalgorithmandconceptdriftbasedonstreamdatainbigdataThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByTanHaiyuSupervisor:AssociationProf.JiYimuApr.2016II摘要随着云计算、物联网等技术的兴起,流数据作为一种新型的大数据形态广泛存在于电信、互联网、金融等领域。这些领域中产生的流
4、数据具有数据量庞大、实时性要求高、数据动态变化和数据形式复杂等特点,这使得传统针对静态数据的数据挖掘不再适用于当前面向大数据的数据挖掘,因此面向大数据的流分类挖掘算法及其概念漂移研究成为当前亟待解决的问题。现有的针对分类算法和其概念漂移的研究成果主要还是依赖于数据结构和算法优化上,主要还是通过计算资源有限的独立计算机完成数据挖掘以及概念漂移的检测。但是大数据的的数据量级和数据复杂度不断增长和升级,使得仅仅依赖于算法本身和单机计算资源是不够的。采用分布式计算平台来应对大数据环境下算法的时间复杂度和空间复杂度的巨大消耗以及解决数据流中概念漂移的问题成为人们关注的重点
5、。因此,本文提出基于分布式计算平台Storm的流分类挖掘算法及系统,主要用于解决面向大数据的流分类中出现的突变型概念漂移和渐进型概念漂移问题。针对数据流中的渐进型概念漂移问题,本文采用并行化窗口方案提前预测数据流中是否发生概念漂移,自适应的改变数据的流入的的速率,从而提高建树模型的准确率和效率。实验结果表明S-CVFDT(ConceptdriftingVeryFastDecisionTreebasedonStorm)算法较原先的CVFDT(ConceptdriftingVeryFastDecisionTree)算法可以有效地检测到数据流中的概念漂移,并尽快恢复到
6、较高的建树模型准确率。另外,针对数据流中的突变型概念漂移如流媒体视频中视频热点的突变性,本论文提出用于解决视频服务器缓存的视频热点资源预测算法MCVFDT(MediaConceptdriftingVeryFastDecisionTree),该算法主要用于在视频缓存资源有限的情况下对视频热点进行预判,使得内容服务器的缓存中保持热点资源的存储,从而提高用户感受,提升服务质量。同时也为缓存设备迁移数据,动态调整负载等等方面提供了一个更可靠的标准。最后,针对于解决原先CVFDT算法系统设计基于单机模式而无法面向大数据的应用问题,尤其是当数据流中样本数的不断增多而造成计算
7、资源在样本属性计算上的损耗,本论文提出基于Storm分布式计算平台来并行化计算样本的属性增益,实验表明该系统提高了流分类挖掘算法系统的精度和效率。关键词:大数据,数据挖掘,分类算法,概念漂移IVAbstractWiththedevelopmentoftechnologiessuchascloudcomputingandinternetofthings,streamingdataasanewformofbigdataexistswidelyintelecommunications,theInternet,financeandotherfields.Duetothe
8、characterist
此文档下载收益归作者所有