欢迎来到天天文库
浏览记录
ID:32965013
大小:5.50 MB
页数:76页
时间:2019-02-18
《一种即时增量数据分析框架设计及实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、中国科学技术大学硕士学位论文一种即时增量数据分析框架设计及实现作者姓名:学科专业:导师姓名:完成时间:刘吉计算机系统结构周学海教授二O一三年四月十五日J舢删删舢.,舢unmu舢umwm舢nnln舢
2、u
3、u删I
4、aq删I
5、mlY2353998UniversityofScienceandTechnologyofChinaAthesisformaster’SdegreeDesignandImplementationofrealItimeandincrementaldataprOCeSSIngtrameWorK■',Author’SName:JiLiuSpeci
6、ality:ComputerSystem&ArchitectureSupervisor:Professor.XuehaiZhouFinishedtime:ApfiX15m,2013中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外,论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名:塞.:』垄签字日期:望眵:兰::兰二中国科学技术大学学位论文授权使用声明作为申请学位的条件之一,学位论文著作权拥有者授权中
7、国科学技术大学拥有学位论文的部分使用权,即:学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅,可以将学位论文编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。厶开口保密(——年)作者签名:盔J鑫:导师签名:签字日期:型!多:』:三三签字日期:竺!至:三:三兰摘要互联网的快速发展对大规模数据处理技术提出了新的挑战,目前业界广泛使用的数据处理系统多数基于Google提出的MapReduce并行处理框架,MapRe
8、duce在处理静态批量数据时优势明显,然而在遇到如下需求时,其表现并不尽如人意:(1)增量数据分析。每当数据到达时,MapReduce都会进行一次完整的计算,其在处理增量到达数据时不能利用历史计算结果。重复数据计算不仅加重了集群负载,也增大了数据处理延迟,影响用户体验。(2)即时输出结果。MapReduce的框架设计决定了其在得到最终结果前不会产生任何可供用户参考的输出。对于需要数小时甚至数天运行的任务来说,产生最终结果前用户只能等待,这种长时间“静默”行为令用户难以接受。本文通过修改MapReduce框架解决上述问题,主要工作和特色如下:(1)提出一种
9、改进的即时增量数据分析框架(IncRTMR)。(2)使用输入处理模块和状态表实现数据增量处理。输入处理模块用于计算数据增量;状态表用于保存中间结果,以便数据重用。(3)通过提前数据拷贝与提前Reduce任务调度实现数据处理结果的即时输出。该方案消除了Map和Reduce端的同步栅障,保证结果即时产生与显示。(4)提出两阶段实时调度算法增强任务的实时性并维护系统负载平衡。对于系统容错问题,本文使用“检查点”策略,在数据处理过程中不断对输入数据做“检查点”,产生错误时从“检查点"处继续处理。利用增量和即时数据处理特性,IneRTMR还适用处理连续多级的实时处
10、理任务。本文提出的即时增量数据处理框架继承了MapReduce基本架构和API,编程接口简单且方便现有MapReduce应用的迁移。对比实验证明,对MapReduce的实时性修改达到了即时获取结果的目的,且开销合理;而两阶段实时调度算法相对于传统FIFO和公平调度算法,在保证系统吞吐量同时能够满足任务实时性需求。关键字:MapReduce增量计算即时结果连续计算负载平衡容错摘要IIAbstractWiththedevelopmentoftheInternet,peoplehaspaidmoreattentiontoda:taanalysisandproc
11、essingtechnology.MapReduceiSawidelyusedbathdataprocessingframeworkproposedbyGoogle,itperformswellwhenprocessingstaticbatchdata,however,itisunsatisfactorywhenmeetingsuchsituations:(1)Incrementaldataprocessing.MapReducewillcomputeallthedatawhenincrementalnewdatacomes,ratherthanmaki
12、nguseofhistoryresults.Thisincreaseddoubl
此文档下载收益归作者所有