hadoop小文件处理技术的研究和实现

hadoop小文件处理技术的研究和实现

ID:34112639

大小:612.82 KB

页数:63页

时间:2019-03-03

hadoop小文件处理技术的研究和实现_第1页
hadoop小文件处理技术的研究和实现_第2页
hadoop小文件处理技术的研究和实现_第3页
hadoop小文件处理技术的研究和实现_第4页
hadoop小文件处理技术的研究和实现_第5页
资源描述:

《hadoop小文件处理技术的研究和实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、单位代码:10293密级:公开硕士学位论文论文题目:Hadoop小文件处理技术的研究和实现学姓导号名师1210042805陈光景沈苏彬研究员专业学位类别工程硕士类型全日制专业(领域)论文提交日期计算机技术二零一三年三月ResearchandImplementationofSmallFileProcessingTechniquesinHadoopThesisSubmittedtoNanjingUniversityofPostsandTelecommunicationsfortheDegreeofMasterofEngin

2、eeringByChenGuang-jingSupervisor:Prof.ShenSu-binMarch2013南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得南京邮电大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。本人学位论文及涉及相关资料若有不实,愿意承担一切相关的法律责任。研究生签名:______

3、_______日期:____________南京邮电大学学位论文使用授权声明本人授权南京邮电大学可以保留并向国家有关部门或机构送交论文的复印件和电子文档;允许论文被查阅和借阅;可以将学位论文的全部或部分内容编入有关数据库进行检索;可以采用影印、缩印或扫描等复制手段保存、汇编本学位论文。本文电子文档的内容和纸质论文的内容相一致。论文的公布(包括刊登)授权南京邮电大学研究生院办理。涉密学位论文在解密后适用本授权书。研究生签名:____________导师签名:____________日期:_____________摘要随着Internet的飞速发

4、展,传统的技术架构在处理海量数据方面显得越来越乏力。Hadoop作为一种能够对海量数据进行高效地分布式处理框架,由底层HDFS文件系统和上层MapReduce编程模型构成;采用主从式架构设计模式的HDFS文件系统在单名称节点方面的设置简化了文件系统的结构,然而也产生了小文件存储效率低的问题。针对Hadoop在处理小文件时存储效率低下和大量的小文件给MapReduce处理带来的超负荷,本文提出基于归档文件技术和序列文件技术解决Hadoop小文件问题,基本思想是通过将小文件合并后分块存储,然后建立小文件到大文件的映射。本文对Hadoop小文件的优

5、化处理方案进行了系统的测试,建立不同的测试用例,包括直接读取小文件和读取合并后的小文件,通过比较直接从本地文件系统和HDFS文件系统上传文件的时间、合并前后访问文件的时间和读取文件时系统的内存占用率,验证了本文设计的方案适用于MapReduce计算模型,可以提高小文件随机访问的效率。关键词:Hadoop,海量小文件,MapReduce,合并,索引IAbstractWiththerapiddevelopmentoftheInternet,thetraditionaltechnicalarchitectureinhandlingmassiveam

6、ountsofdatahasbecomeincreasinglyweak.Asmassivedatadistributedprocessingapplicationframework,HadoopconsistsoftheHDFSfilesystemandtheMapReduceprogrammingmodel.Usingmaster-slavearchitecturedesignpattern,HDFSfilesystemsetthesinglenamenodeandsimplifythestructureofthefilesystem;b

7、utatthesametime,thismethodalsoledtothelowefficiencyofsmallfilesstored.ForcopingwithHadoop’sstorageinefficiencyindealingwithsmallfilesandoverheadofMapReduceinprocessingalargenumberofsmallfiles,thisthesisusesarchivefileapproachandsequencefileapproachtosolvetheproblemsbycombin

8、ingsmallfiletobigfileandcreatingmappingfromsmallfiletolargefile.Atexperimentalsect

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。