hadoop小文件处理技术的研究与优化

hadoop小文件处理技术的研究与优化

ID:35172231

大小:5.52 MB

页数:65页

时间:2019-03-20

hadoop小文件处理技术的研究与优化_第1页
hadoop小文件处理技术的研究与优化_第2页
hadoop小文件处理技术的研究与优化_第3页
hadoop小文件处理技术的研究与优化_第4页
hadoop小文件处理技术的研究与优化_第5页
资源描述:

《hadoop小文件处理技术的研究与优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、.."、.y.-■.-.C-’‘‘,.、.';乂,一..二.V,、.4,'....’:却IV.抑r吟rj共:?.如一乃■戶%-,户.,户_^一’’、-一’?一"-vT—i;、v.,T..?-,A.、‘’一.,一.■―-^.、..啤.,?;--f.,!.......达.与>-—嗦;广东工业大学硕±学位论文(工程硕±)Hadoop小文件处理技术的研究与仇化赵菲?、、?、?-'.。

2、户\-■'-.?^V.心?..;‘,\.’’'V'.一;.,■\,'—,■--/—\.;:''?-:.>■户占V妙一:',、.-'..-”:、L'y’-、.'三rV,I’、一*■.'命心,.r-与\i‘'../..苗缉..戶■■■-..令,.■^??.;?....,..一'.?w、..-一‘二〇—六年五月.V?弁,.?、扣

3、J;.一’t-己'...VV户.1.'、'三’-'巧巧VJ’诺\'、由读锭尸鸟:■.-中、^:片■下、,-.-‘;.或,.'、-鴻.卢-..年:1184分类号:学校代号5UDC::密级学号:2111305063广东工业大学硕壬学位论文(工程硕dr)Hadoop小文件处理技术的研究与优化赵菲校内导师姓名、职称:林穗副教授校外导师姓名、职称:尹年春王程师学科(专业)或领域名称:计算机技术学生所属学院

4、:计算机学院二〇—论文答辩日期:六年五月ADissertationSubmittedtoGuangdongUniversityofTechnolofortheDereeofMastergyg(MasterofEngineeringScience)ResearchandoptimizationofHadoopsmallfilerocessint;echnolopggyCandidate:ZhaoFeiSupervisor:Prof.Li

5、nSuiMay2016SchoolofComputersGuangdongUniversityofTechnologyGuangzhou,Guangdong,P.R.China,510006摘要摘要随着互联网的快速发展,数字信息呈现指数级的增长,人类已经迈进了大数.据的时代。在数据存储和计算方面,传统的方法己经显得越来越没有优势。怎样高效W及合理地存储计算大批量数据己经成为国内外各行各业关必的重点。鉴于,云计算的概念由此产生对数据计算W及数据存储的高

6、要求。随着云计算技术的迅速发展,存储和计算成为最热口的研究范畴。一Hadoop是Apache基金会的个开源的项目,它在分布式存储W及分布式计算方面表现出杰出的性能,引发了国内外广泛的关注,目前,越来越多的高校W及企业都开始应用Hadoop支撑自己的业务与需求。尽管Hadoop是专口为存储和adoo,计算大数据而设计的,但是当Hp存储小文件时会给主节点带来巨大的内,MaRe化ce编程模型的计算效率。存压力,影响文件的访问效率并且间接影响p本文基于Hadoo的M巧民educe计算模型和HDFS

7、分布式文件系统两个核也、p内容,着重研究了基于Hadoop的小文件处理技术的通用优化。为了解决Hadoop技术在存储和计算小文件时会给NameNode节点造成内存?1aReduce模型计算效率低的问题,首先研究的浪费、读取文件效率低下1^及MpHadoop本身自带的小文件处理技术,深入分析了它们的优缺点,并分别从Reduce层面和HDFS层面对Hadoo进行研巧与优化,adooMapp提高Hp存储、计算小文件的效率。在MapRe加ce层面,对MapReduce的执行流程y?及虹P山Format

8、民olu体系结构进行深入研究,详细分析Mapce源代码W及内部方法的具体实现。通过深入研究W及实现CombineFilelnputForaiat抽象类,在MapReduce层面对小,提高了Hadoo对小文件的计算效率S,文件的输入格式进行合并p。在HDF层面一HDFSi本文提出种具有独立小文件处理模块的分布式文件系统,它不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。