欢迎来到天天文库
浏览记录
ID:35058697
大小:6.97 MB
页数:82页
时间:2019-03-17
《基于spark的大数据清洗框架设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、.'-/./1?f'''f/t.',./.\勉".II'娘lf《^密级;:i;""k^...-滅硕壬学位论文':冰'.*?:*??*‘>,'’..沪:.."-^.UV/,'^"^;讀玄..../戀'■?';■:'.,:论文题目基于Spark的大数搪清洗框架设计与实现’-抑*-如1‘IV/:.'皆\'ii^i/'‘UI作VV'威‘'..*作者姓名仓
2、翰伟乡\..\戸指导教师王新宇副教授I'(李伟博击'-、学科专业计當机技术、.一()\(所在学院计貧机科学与技术学院一1!\A't"?205--22101提交日期f只fs#■/‘,\'/''//.//巧站严,,.If/VI'一喔、A挪:V'■<,Vi一、括如-';4%/X\/ADissertationSubmittedtoZheianjgUniversitfo
3、rtheDereeofygMasterofEnineeringg雜TITLE:BigdataCleaningFrameworkDesignandImplementationBasedOnSparkA。化or:HanweiJinSuervisor:XinvuWangpWeiLiSubectComu化rTechnolosv:jpColleeomputercienceandTechnologyg:CS20--Su
4、bmiUedDate:150122独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的。,除了文中特别加W标注和致谢的地方外研究成果据我所知,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得浙江大学或其他教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研巧所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:乂f爲签字日期:之年>月\T日午学位论文版权使用授权书本学位论文作者完全了解浙江大学有关保
5、留、使用学位论文的规定,有权俱留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授极浙江大学可从将学化论文的全部或部分肉容编入有关数据库进行检索,可W采用影印、缩印或扫描#复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:<£导师签名签字日期,j月日签字日:之/占年期:年月日学位论文作者毕业后去向:工作单位:电话:通讯地址:邮编浙江大学硕壬学位论文摘要搞要大数据技术之中核々是数据分析,但在
6、真正解决大数据问题之时,王分之二的工作量都是在大数据清洗,大数据清洗是开始大数据处理的基础,所W,高效的大数据清洗技术不仅能有效地提高大数据质量,化可W加快整体大数据处理的流程。一本论文设计实现了套基于Spark的大数据清洗框架,原理是充分利用Spark(RestDtriteDatasetsRDDs分布式计算能力,将弹性分布式数据集ilienisbud),的操作,,封装成大数据清洗的任务单元,通过组合串联成完整的大数据清洗流水。线,实现大数据清洗。同时提出了多叉树计算流结
7、构,优化大数据清洗流程该框架能够重用大数据清洗功能组件,ark,灵活配置清洗流程充分利用Sp的高速,满足实际环境中复杂的大数据清洗需求计算性能,实现高可扩展性,彻底解决大数据清洗问题,加快整体大数据处理流程。实验证明,利,基于该大数据清洗框架,能够极大降低清洗流稽的褐合性用已有的清洗单元,灵活地实现复杂的大数据清洗,极大降低了大数据清洗的成本,a一最关键的是,利用Sprk将大数据清洗提升到了个新的性能水平,促进了大数据处理应用技术的发展。r关键谓:大数据框架Spak,流水线
8、,清洗,,1浙江大学硕去学位论文AbstractAbstractWhen*itcomesU>bigdataprocessingproblem,bigdataclea打ingtakesmorethan-twothirdspartofwork.Thoughthecoreofbigdatarocessi打belo打gstobidatapgganalsisb
此文档下载收益归作者所有