基于spark的大数据清洗框架设计与实现

基于spark的大数据清洗框架设计与实现

ID:35058697

大小:6.97 MB

页数:82页

时间:2019-03-17

基于spark的大数据清洗框架设计与实现_第1页
基于spark的大数据清洗框架设计与实现_第2页
基于spark的大数据清洗框架设计与实现_第3页
基于spark的大数据清洗框架设计与实现_第4页
基于spark的大数据清洗框架设计与实现_第5页
资源描述:

《基于spark的大数据清洗框架设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.'-/./1?f'''f/t.',./.\勉".II'娘lf《^密级;:i;""k^...-滅硕壬学位论文':冰'.*?:*??*‘>,'’..沪:.."-^.UV/,'^"^;讀玄..../戀'■?';■:'.,:论文题目基于Spark的大数搪清洗框架设计与实现’-抑*-如1‘IV/:.'皆\'ii^i/'‘UI作VV'威‘'..*作者姓名仓

2、翰伟乡\..\戸指导教师王新宇副教授I'(李伟博击'-、学科专业计當机技术、.一()\(所在学院计貧机科学与技术学院一1!\A't"?205--22101提交日期f只fs#■/‘,\'/''//.//巧站严,,.If/VI'一喔、A挪:V'■<,Vi一、括如-';4%/X\/ADissertationSubmittedtoZheianjgUniversitfo

3、rtheDereeofygMasterofEnineeringg雜TITLE:BigdataCleaningFrameworkDesignandImplementationBasedOnSparkA。化or:HanweiJinSuervisor:XinvuWangpWeiLiSubectComu化rTechnolosv:jpColleeomputercienceandTechnologyg:CS20--Su

4、bmiUedDate:150122独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的。,除了文中特别加W标注和致谢的地方外研究成果据我所知,论文中不包含其他人己经发表或撰写过的研究成果,也不包含为获得浙江大学或其他教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研巧所做的任何贡献均已在论文中作了明确的说明并表示谢意。学位论文作者签名:乂f爲签字日期:之年>月\T日午学位论文版权使用授权书本学位论文作者完全了解浙江大学有关保

5、留、使用学位论文的规定,有权俱留并向国家有关部口或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授极浙江大学可从将学化论文的全部或部分肉容编入有关数据库进行检索,可W采用影印、缩印或扫描#复制手段保存、汇编学位论文。(保密的学位论文在解密后适用本授权书)学位论文作者签名:<£导师签名签字日期,j月日签字日:之/占年期:年月日学位论文作者毕业后去向:工作单位:电话:通讯地址:邮编浙江大学硕壬学位论文摘要搞要大数据技术之中核々是数据分析,但在

6、真正解决大数据问题之时,王分之二的工作量都是在大数据清洗,大数据清洗是开始大数据处理的基础,所W,高效的大数据清洗技术不仅能有效地提高大数据质量,化可W加快整体大数据处理的流程。一本论文设计实现了套基于Spark的大数据清洗框架,原理是充分利用Spark(RestDtriteDatasetsRDDs分布式计算能力,将弹性分布式数据集ilienisbud),的操作,,封装成大数据清洗的任务单元,通过组合串联成完整的大数据清洗流水。线,实现大数据清洗。同时提出了多叉树计算流结

7、构,优化大数据清洗流程该框架能够重用大数据清洗功能组件,ark,灵活配置清洗流程充分利用Sp的高速,满足实际环境中复杂的大数据清洗需求计算性能,实现高可扩展性,彻底解决大数据清洗问题,加快整体大数据处理流程。实验证明,利,基于该大数据清洗框架,能够极大降低清洗流稽的褐合性用已有的清洗单元,灵活地实现复杂的大数据清洗,极大降低了大数据清洗的成本,a一最关键的是,利用Sprk将大数据清洗提升到了个新的性能水平,促进了大数据处理应用技术的发展。r关键谓:大数据框架Spak,流水线

8、,清洗,,1浙江大学硕去学位论文AbstractAbstractWhen*itcomesU>bigdataprocessingproblem,bigdataclea打ingtakesmorethan-twothirdspartofwork.Thoughthecoreofbigdatarocessi打belo打gstobidatapgganalsisb

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。