hadoop中小文件处理技术的研究与优化

hadoop中小文件处理技术的研究与优化

ID:35032158

大小:2.43 MB

页数:60页

时间:2019-03-16

hadoop中小文件处理技术的研究与优化_第1页
hadoop中小文件处理技术的研究与优化_第2页
hadoop中小文件处理技术的研究与优化_第3页
hadoop中小文件处理技术的研究与优化_第4页
hadoop中小文件处理技术的研究与优化_第5页
资源描述:

《hadoop中小文件处理技术的研究与优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、密级:学校代码:10075分类号:学号:20141256工程硕士学位论文Hadoop中小文件处理技术的研究与优化学位申请人:李路杰指导教师:刘振鹏教授学位类别:工程硕士学科专业:电子与通信工程授予单位:河北大学答辩日期:二〇一六年六月ClassifiedIndex:CODE:10075U.D.C:NO:20141256ADissertationfortheDegreeofM.EngineeringResearchandOptimizationofSmallFilesProcessingTechniquesinHadoopCandidate:Li

2、lujieSupervisor:Prof.LiuZhenpengAcademicDegreeMasterofEngineeringSpecialty:Comm.&Info.SystemUniversity:HebeiUniversityDateofAccomplishment:June,2016河北大学学位论文独创性声明,是本人郑重声明:所呈交的学位论文本人在导师指导下进行的研巧工作。尽我所知,论文及取得的研究成果,除了文中特别加W标注和致谢的地方外中不包含其他人己经发表或撰写的研究成果,也不包含为获得河北大学或其他教-育机

3、构的学位或证书所使用过的材料。与我同工作的同志对本研巧所做的任何贡献均己在论文中作了明确的说明并表示了致谢。少6〇/:月tl:克日期年作者签名—学位论文使用授权声明目]本人完全了解河北大学有关保留、使用学位论文的规定,I:学校有权保留。并向国家有关部口或机构送交论文的复印件和电子版,化许论文被查阅和借阅 ̄学校可公布论文的全部或部分内容,耐、采用影印、缩印或其他复制手段保存论文。本学位论文属于1、口,在解密后适用本授权声明。保密.月..^...?...年.2、不保密间。""(请在W上相应方格内

4、打V)保护知识产权声明〇pi々y瓜本人为申请河北大学学位所提交的题目为(H叩4心封如乐£竣木疏部兔sf平旨导并与导师合作下取得的研究成果,研的学位论文,是我个人在导师费资巧工作及取得的研究成果是在河北大学所提供的研究经费及导师的研究经助下完成的。本人完全了解并严恪遵守中华人民共和国为保护知识产权所制定的各项法律、行政法规^^^^及河北大学的相关规定。经本人声明如下:本论文的成果归河北火学所有,未征得指导教师研和河工北大作内学的书面同意和授权,本人保证不W任何形法式公开和传播科研成果和科容。如果违反本声明,本

5、人愿意承担相应律责任。勝:声明人:参吏口期:参年6月山J1作者签名:寺膝表口期:ml...年_...[且11导师签名:i日期:/全JI呆才啤良《摘要摘要随着互联网的飞速发展,传统的存储方法已经无法满足当前海量数据的存取需求,海量数据的存储和处理成为当下研究的一个新课题。分布式计算平台Hadoop由于具有高可靠、易扩展、高容错性等特点,已经广泛的运用在云计算领域。由于Hadoop是以流式数据访问模式来处理文件,也可以说是为了存储大文件而设计的。因此,Hadoop在处理大文件时性能表现优异,而在处理小文件时会出现存储效率低

6、的问题。针对此问题,本文分析了前人做的一些研究和改进方案,通过研究其他的方案,找出其中优缺点,并在此基础上做了相应的改进。本文的设计方案是在原分布式文件系统基础上添加一个独立的小文件处理模块,通过小文件处理模块对小文件进行合并,建立文件的索引,以及通过文件缓存预取后传送到HDFS中进行数据的处理。该架构使得HDFS系统在处理小文件的同时不影响对大文件或者对已合并小文件的写入或读取,从而提高系统的存储访问效率。本文的小文件合并和索引方案是在HAR的基础上改进的。通过创建小文件的时间段对合并文件命名。此外根据小文件名称以及扩展名建立小文件到具体数据

7、块以及数据块内地址信息的Trie树索引,并根据相应的扩展名对所对应的索引进行分片,从而建立两级索引机制,放置在小文件处理模块中以加快系统中小文件的检索性能。文件的预取是通过文件的元数据和索引信息以及文件的预取记录在小文件处理模块的缓存池里进行索引预取与相关文件的预取。论文给出了该优化方案在Hadoop集群的具体实现,包括小文件合并MapReduce自定义输入分片、两级索引的建立等相关算法的实现。另外,设立性能评价指标来量化分析小文件的内存使用效率和访问效率。最后通过实验比较小文件优化处理后的方案、HAR方案和原HDFS方案在处理小文件时的性能。

8、实验结果表明,本文提出的小文件处理的优化方案在内存使用效率,访问效率方面都要比原HDFS方案和HAR方案占优势。关键词HadoopHDFS小文件合并索

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。