基于HDFS的小文件存储与读取优化策略.pdf

基于HDFS的小文件存储与读取优化策略.pdf

ID:53575487

大小:331.94 KB

页数:5页

时间:2020-04-19

基于HDFS的小文件存储与读取优化策略.pdf_第1页
基于HDFS的小文件存储与读取优化策略.pdf_第2页
基于HDFS的小文件存储与读取优化策略.pdf_第3页
基于HDFS的小文件存储与读取优化策略.pdf_第4页
基于HDFS的小文件存储与读取优化策略.pdf_第5页
资源描述:

《基于HDFS的小文件存储与读取优化策略.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、2014年第23卷第5期http://www.C—S—a.org.cn计算机系统应用基于HDFS的小文件存储与读取优化策略①张海,马建红(~.X4LI业大学计算机科学与软件学院,天津300401)摘要:本文对HDFS分布式文件系统进行了深入的研究,在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低.本文针对这个问题提出了一个基于关系数据库的小文件合并策略,首先为每个用户建立一个用户文件,其次当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,最后用户读取

2、小文件时通过元数据信息直接以流式方式进行读取.此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率.实验结果表明通过此方案很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统,可以降低NameNode内存消耗提高文件读写效率.关键词:HDFS;小文件优化;文件合并;负载均衡;云存储OptimizationalStrategyofSm

3、allFilesStoredandReadedonHDFSZHANGHai,MAJian—Hong(ComputerScienceandSoftwareEngineering,HebeiUniversityofTechnology,Tianjin300401,China)Abstract:Inthispaper,theHDFSdistributedfilesystemisconductedin—depthresearch.InHDFSthewayofstreamingtoreadandwritelargefil

4、esisveryeficient,buttheeficiencyonreadingandwritingofthemassofsmallfilesisrelativelylow.Accordingtothisproblemthispaperpresentsasmallfilesbasedonrelationaldatabaseconsolidationstrategy.Firstlycreatingauser’SfileforeachuseLthenuploadingfile’Smetadatainformati

5、ontorelationaldatabaseandthefileiswrittentotheuser’Sfilewhenuseruploadssmallfiles.Finallyuserviastreamingmodetoreadsmallfilesaccordingtothemetadatainformation.Whenuserreadsfilewhichsizeissmallerthanthefileblock,datanodetakesloadbalancingstrategy,thedatanodeo

6、fstoringdatatransfersdatadirectlySOastoreducethepressureofthemainserverandimprovetheeficiencyoffile’Stransfer.TheexperimentalresultsshowthatthisschemesolvestheshortcomingofHDFSreadingandwritingsmallfiles,improvestheHDFSfilesystemofreadingandwritingperformanc

7、eonmassivesmallfiles.Thisschemecanapplytomassivesmallfilesoncloudstoragesystem,andreducememoryconsumptionofNameNodetoimprovetheeficiencyoffile’Sreadingandwriting.Keywords:HDFS;optimizationofsmallfiles;mergefiles;loadbalance;cloudstorage随着互联网的高速发展,互联网中的数据也急剧衍

8、生也成为了国内外研究的热点,在众多云存储的研的膨胀,为了给用户提供更好的服务互联网企业就要究中,Hadoop的分布式文件系统HDFS[3]作为Google保存和挖掘这些数据.由此产生了云计算的概念,FileSystem的开源实现已成为业界研究云计算与云存云计算是当今研究的热门课题,它很好的解决了大数储,实现云应用提供云服务参考的标准模型.HDFS可据的运算与存储的难题,其中云存储作为云

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。