Hadoop海量小文件处理技术的应用研究.pdf

Hadoop海量小文件处理技术的应用研究.pdf

ID:50377973

大小:4.20 MB

页数:71页

时间:2020-03-05

Hadoop海量小文件处理技术的应用研究.pdf_第1页
Hadoop海量小文件处理技术的应用研究.pdf_第2页
Hadoop海量小文件处理技术的应用研究.pdf_第3页
Hadoop海量小文件处理技术的应用研究.pdf_第4页
Hadoop海量小文件处理技术的应用研究.pdf_第5页
资源描述:

《Hadoop海量小文件处理技术的应用研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、'’’:密级:&开单位代码.'…-二沾暴/:.*悼巧V-?’?I..、V,fI.'.U無.劳.‘‘r善冶黃.:誦V简:;寺皮《像硕女化戈省;1'‘^^...:.VaV铃祐筆,―!稳細墙爾懸;、?、*、’'"、.、';—V/碱A、-,;扛攻.知^.二.兵甚榮_/八皆.V,、傍^公居\'巧,j把,满挺U垂细'.。.:HadooD海量小义件处理巧乂的应用研究>.)滚/兴论文题目.怎;苗葬'-’'心:.-.严’:

2、.誓;,.;—.茄蘇賞.;!斷V.;卷等爹,:;,%读婷胃父為号。誦903謂票';:卓.隧'导师章f,;;;葦:敬!>连勢^、工程硕—,_±,>耗诗禾专业学位类别^或:点秦.气.‘a-.逸___■气;篇拔:类型全r专业(领域)—辻基化技丞沪.巧20巧3月年__:H论文提交日期巧参%:^卢苗矿韻苗::―辨讓稱祭;砖南京邮电大学学位论文原创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研巧工作及取得的研究成果。,论尽

3、我所知,除了文中特别加标注和致谢的地方外文中不包含其他人已经发表或撰写过。的研巧成果,也不包含为获得南书而使用过的材料京邮电大学或其它教育机构的学位或证一王作志对本研己在论文。了明说明并表示谢意与我同的同巧所做的任何贡献均中作确的了一愿切相法律。本人学位论文及涉及资料若有不实,意承担关的责任相关-■^冰酱.年|研:日;、巧生签名期电大位论文使用授权声明南京邮学学本人授权南京邮电大学可保留并向国家有关部口或机构送交论文的复印件和电子文论查和借;可将学位论文的全部或部分内容编入有

4、关数据库进行检索;档;允许文被阅阅。、、本文电子质可采用影缩制汇编本学位论文文档的内容和纸印印或扫描等复手段保存一研生。论文(包括登)授权南京邮院办理。论文的内容相致公电大学究的布刊。用本授权涉密学位论文在解密后适书I4.签;研生签;名;日趴1防k导师期S巧名々tmResearchandApplicationofMassiveSmallFilesProcessingTechniquesBasedOnHadoopThesisSubmittedtoNanjingUniversit

5、yofPostsandTelecommunicationsfortheDegreeofMasterofEngineeringByYunfeiYaoSupervisor:Prof.ChunlingChenMarch2015摘要随着大数据时代的到来,仅仅中国每年产生的数据量就已经到达ZB级别,对于这些海量数据的存储和处理,传统的数据库技术和系统架构已经越来越乏力,Hadoop作为近几年发展起来的大数据处理平台,它是由Apache软件基金会开发的开源分布式数据处理框架,它在处理大数据时具有可靠性、可伸缩性、高效

6、性、可扩展性、低成本等优点。HDFS作为Hadoop的文件系统,它继承了传统存储系统的优点,同时采用具有开创性的设计思路来实现自己的功能,使它能够处理大规模数据,并且使它成为可扩展的文件存储与传输系统。然而采用Hadoop处理海量小文件时,却出现一系列性能瓶颈,比如名称节点占用率高、访问效率低、检索效率低等,因此,Hadoop海量小文件处理技术已然成为学术界和工业界一个重要的研究课题。为了解决Hadoop处理海量小文件产生的一系列性能问题,本文的主要思想是采用BM25算法确定小文件相关性,对文件进行分类合

7、并以减少文件数量,从而缓解NameNode存储海量小文件的元数据而造成的内存瓶颈,在合并文件的同时建立索引机制,实现从合并文件到单个小文件的访问。此外,根据文件的相关性,分别提供相关小文件的预取机制和相关小文件的索引预取机制,这将有利于减小NameNode中元数据请求所产生的负荷,能够在读请求方面实现更好的性能,在整个系统中,使用内存数据库技术(Memcached)构建缓存层(Cache),完成相关文件映射和预取工作,提高小文件的检索效率。本文对改进的小文件处理方案进行了系统测试,采用网络数据作为实验数据

8、,设计了三种测试用例,在写入和读取时间、内存占用率、存储性能上进行了分析,实验表明本文提出的解决方案有效地提高了对小文件的存储和读取效率,一定程度上提高了Hadoop平台的存储性能。关键词:Hadoop,海量小文件,Memcached,BM25算法IAbstractWiththearrivaloftheageofbigdata,thedatasizeonlyproducedinChinaperyearhasreachedZBl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。