欢迎来到天天文库
浏览记录
ID:31431011
大小:110.50 KB
页数:8页
时间:2019-01-09
《基于hadoop的云存储系统文件处理与安全研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于Hadoop的云存储系统文件处理与安全研究 摘要:由于公有云存储中存在数据泄露、丢失、存储不稳定等不安全因素,私有云存储成为解决当前企业安全存储需求的最佳选择。针对单点内存负载过高,写入效率低下的问题,设计了一套处理大量小文件的模块,通过缓存多个小文件合并,再合并文件元数据放置索引表,通过索引表中的偏移量寻找块中小文件数据的方式,提高HDFS写入大量小文件的系统性能,经过测试验证了优化方案的有效性。 关键词:Hadoop;HDFS;私有云存储;小文件优化 中图分类号:TN911?34;TM417文献标识码:
2、A文章编号:1004?373X(2016)21?0112?04 ResearchonfileprocessingandsecurityofcloudstoragesystembasedonHadoop LIYingchao (BeihuaUniversityTeacher′sCollege,Jilin132013,China) Abstract:Sincethepubliccloudstorageexisitstheunsafefactorsofdataleakage,dataloseandunstables
3、torage,theprivatecloudstoragebecomesthebestchoicetomeetthecurrentsafetystoragedemandsoftheenterprises.Tosolvethetoohighloadofthesinglepointmemoryandlowwritingefficiency,amodule8todealwiththemassivesmallfileswasdesigned.Multiplesmallfilesaremergedthroughthecache
4、,andtheindextableisplacedintothemetadataoftheemergedfile.ThemethodoffindingsmallfiledataintheblockbymeansoftheoffsetintheindextablecanimprovetheHDFSperformanceofwritingmassivesmallfiles.Thevalidityoftheoptimizationschemewasverifiedwithanexperiment. Keywords:Ha
5、doop;HDFS;privatecloudstorage;smallfileoptimization 0引言 在HDFS中,所有文件的写入和读取都需要通过NameNode控制,接收用户对文件操作的请求,定位文件位置和分配文件存储的DataNode节点,并且所有文件的信息都存储在NameNode中的元数据里。在文件处理中,HDFS在NameNode中为每一个文件都建立了元数据,用来存储该文件信息,这样的做法对大文件是十分合理的[1]。但问题是当系统中存储大量的小文件时,这样的做法就在时间开销和性能上有了严重的问题
6、,在小文件的存储过程中,向NameNode发出请求分配DataNode节点的时间消耗甚至超过了存储过程本身的时间,NameNode中海量小文件的元数据会占用大量的内存,影响系统性能[2]。 面对小文件存储的瓶颈,设计小文件存储的优化过程,并且针对原生HDFS小文件存储优化的过程,在减少系统负载的同时保证小文件存储的正确性和稳定性是当前面临的问题。8 1文件存储优化方案设计 HDFS作为时下流行的分布式存储系统,自身不擅长处理小文件的写入,在处理小文件上存在瓶颈,但是面对当前小文件数量急剧增长的现状,应该紧跟时代
7、需求的脚步,在小文件处理方面进行相关优化,从单一面向大型数据的储存转向更加符合时代的方向,更好地兼容大小文件的存储。 1.1合并及写入 合并及写入在合并的过程中,第一步是要保证小文件能够在缓存中等待,一直合并到合并块大小接近BlockSize时,再向HDFS发送写入的请求。在用户上传小文件时,首先新建一个合并文件,返回到DFSClient中新设计的MergeStream流对象,其功能就是循环等待并读取用户上传的小文件,直到缓存大小达到BlockSize的大小[3]。为对象分配Buffer空间,空间大小和Block
8、Size大小相同,同时RPC通信在NameNode中建立对应的元数据结构MergeNode,在MergeNode中保存filemap,其中包含了小文件名和其在本块中的偏移量等信息。 1.2小文件映射 NameSpace主要维护文件元数据,正是根据元数据记录的文件存储信息,用户才能将在DataNode中分散存储的文件块找到并且组合成原本完整的
此文档下载收益归作者所有