基于Hadoop的小文件存储优化方案李孟.doc

基于Hadoop的小文件存储优化方案李孟.doc

ID:56316685

大小:117.35 KB

页数:5页

时间:2020-06-11

基于Hadoop的小文件存储优化方案李孟.doc_第1页
基于Hadoop的小文件存储优化方案李孟.doc_第2页
基于Hadoop的小文件存储优化方案李孟.doc_第3页
基于Hadoop的小文件存储优化方案李孟.doc_第4页
基于Hadoop的小文件存储优化方案李孟.doc_第5页
资源描述:

《基于Hadoop的小文件存储优化方案李孟.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、第45卷第1期电子科技大学学报Vol.45No.12016年1月JournalofUniversityofElectronicScienceandTechnologyofChinaJan.2016基于Hadoop的小文件存储优化方案李孟,曹晟,秦志光(电子科技大学计算机科学与工程学院成都611731)【摘要】Hadoop作为成熟的分布式云平台,对较大的文件提供了可靠高效的存储服务,但在处理海量小文件时效率显著降低。该文提出了基于Hadoop的海量教育资源小文件的存储优化方案,利用教育资源小文件间的关联关系,将小文件进行合并成大文件以减少文件

2、数量,并索引机制访问小文件、元数据缓存和关联小文件预取机制来提高文件的读取效率。实验结果表明,该方法提高了Hadoop文件系统存储小文件的存取效率。关键词Hadoop;索引机制;关联关系;小文件存储中图分类号TP391.6文献标志码Adoi:10.3969/j.issn.1001-0548.2016.01.024StorageOptimizationMethodofSmallFilesBasedonHadoopLIMeng,CAOSheng,andQINZhi-guang(SchoolofComputerScienceandEngineer

3、ing,UniversityofElectronicScienceandTechnologyofChinaChengdu611731)AbstractHadoopdistributesfilesystem(HDFS)canprocesslargeamountsofdataeffectivelythroughlargeclusters.However,HDFSisdesignedtohandlelargefilesandsuffersperformancepenaltywhiledealingwithlargenumberofsmallfil

4、es.AnapproachbasedonHDFSisproposedtoimprovestorageefficiencyofsmallfilesinHDFS.Themainideaistoclassifythemasssmallfiles,mergethembyclasses,andindexthemergedfilesaimingatreducingtheamountofindexitemsinnamenodesandimprovingthestorageefficiency.Experimentalresultsshowthatthes

5、torageefficiencyofsmallfilesisimprovedcontrastingtoHadoopArchives(HARfiles).KeywordsHadoop;indexmechanism;relationship;storageofsmallfilesHDFS(hadoopdistributedfilesystem)是一个具有高容错性、成本低廉性等特点的分布式文件系统。在实际应用中,小文件的数量远远多于大文件的数量。尤其是在互联网应用中,诸如网页中的图片、文档以及包括其他的数据信息xml文件等多数为小文件。HDFS设

6、计来对大文件进行流式存储,在处理小文件时会产生一些问题。因此,如何高效地存储和处理大量的小文件成为一个研究热点[1-3]。HDFS对于处理海量小文件的存储有以下不足:1)海量小文件耗费主节点内存,可能造成NAMEDODE瓶颈问题;2)海量小文件的I/O效率低,没有一种优化机制来提高I/O性能;3)HDFS下没有明确的能够区分何为小文件的分界点;4)没有考虑海量小文件之间的相关性等。本文所提的教育资源小文件包括各种形式的教育资源,如word文档、pdf文档、ppt课件及文件资料等,只要和教育资源相关的内容且大小远小于Hadoop的存储块64M

7、B的文件都可称为教育资源小文件。这类文件具有3个特点:1)这些文件通常在几十到几百KB,和Hadoop的存储块大小64MB相比较小;2)小文件之间有关联性,整理归档同类课程的小文件然后进行合并;3)小文件的数量很多,因为网络中存在的各种学习资源量非常大,且不断地以指数级速度增长。1相关工作针对小文件在HDFS中存储出现的问题,目前出现了许多的解决方案[4-10],归纳起来主要分为:1)第一类都对写入的小文件进行缓冲,将缓冲的多个小文件合并为一个临时文件,将临时文件的元数据和数据对象存储至元数据服务器节点和数据服务器节点的后端存储中,从而可

8、以有效地提高集群文件系统服务的响应时间和速度,提升数据整体的单位时间数据读写次数、吞吐量。2)第二类针对机群文件系统中的小文件提出新的存储和访问,步骤为:①设置阈值,区分大小收稿

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。