基于hadoop的云存储系统文件处理与安全研究

基于hadoop的云存储系统文件处理与安全研究

ID:31431011

大小:110.50 KB

页数:8页

时间:2019-01-09

基于hadoop的云存储系统文件处理与安全研究_第1页
基于hadoop的云存储系统文件处理与安全研究_第2页
基于hadoop的云存储系统文件处理与安全研究_第3页
基于hadoop的云存储系统文件处理与安全研究_第4页
基于hadoop的云存储系统文件处理与安全研究_第5页
资源描述:

《基于hadoop的云存储系统文件处理与安全研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hadoop的云存储系统文件处理与安全研究  摘要:由于公有云存储中存在数据泄露、丢失、存储不稳定等不安全因素,私有云存储成为解决当前企业安全存储需求的最佳选择。针对单点内存负载过高,写入效率低下的问题,设计了一套处理大量小文件的模块,通过缓存多个小文件合并,再合并文件元数据放置索引表,通过索引表中的偏移量寻找块中小文件数据的方式,提高HDFS写入大量小文件的系统性能,经过测试验证了优化方案的有效性。  关键词:Hadoop;HDFS;私有云存储;小文件优化  中图分类号:TN911?34;TM417文献标识码:

2、A文章编号:1004?373X(2016)21?0112?04  ResearchonfileprocessingandsecurityofcloudstoragesystembasedonHadoop  LIYingchao  (BeihuaUniversityTeacher′sCollege,Jilin132013,China)  Abstract:Sincethepubliccloudstorageexisitstheunsafefactorsofdataleakage,dataloseandunstables

3、torage,theprivatecloudstoragebecomesthebestchoicetomeetthecurrentsafetystoragedemandsoftheenterprises.Tosolvethetoohighloadofthesinglepointmemoryandlowwritingefficiency,amodule8todealwiththemassivesmallfileswasdesigned.Multiplesmallfilesaremergedthroughthecache

4、,andtheindextableisplacedintothemetadataoftheemergedfile.ThemethodoffindingsmallfiledataintheblockbymeansoftheoffsetintheindextablecanimprovetheHDFSperformanceofwritingmassivesmallfiles.Thevalidityoftheoptimizationschemewasverifiedwithanexperiment.  Keywords:Ha

5、doop;HDFS;privatecloudstorage;smallfileoptimization  0引言  在HDFS中,所有文件的写入和读取都需要通过NameNode控制,接收用户对文件操作的请求,定位文件位置和分配文件存储的DataNode节点,并且所有文件的信息都存储在NameNode中的元数据里。在文件处理中,HDFS在NameNode中为每一个文件都建立了元数据,用来存储该文件信息,这样的做法对大文件是十分合理的[1]。但问题是当系统中存储大量的小文件时,这样的做法就在时间开销和性能上有了严重的问题

6、,在小文件的存储过程中,向NameNode发出请求分配DataNode节点的时间消耗甚至超过了存储过程本身的时间,NameNode中海量小文件的元数据会占用大量的内存,影响系统性能[2]。  面对小文件存储的瓶颈,设计小文件存储的优化过程,并且针对原生HDFS小文件存储优化的过程,在减少系统负载的同时保证小文件存储的正确性和稳定性是当前面临的问题。8  1文件存储优化方案设计  HDFS作为时下流行的分布式存储系统,自身不擅长处理小文件的写入,在处理小文件上存在瓶颈,但是面对当前小文件数量急剧增长的现状,应该紧跟时代

7、需求的脚步,在小文件处理方面进行相关优化,从单一面向大型数据的储存转向更加符合时代的方向,更好地兼容大小文件的存储。  1.1合并及写入  合并及写入在合并的过程中,第一步是要保证小文件能够在缓存中等待,一直合并到合并块大小接近BlockSize时,再向HDFS发送写入的请求。在用户上传小文件时,首先新建一个合并文件,返回到DFSClient中新设计的MergeStream流对象,其功能就是循环等待并读取用户上传的小文件,直到缓存大小达到BlockSize的大小[3]。为对象分配Buffer空间,空间大小和Block

8、Size大小相同,同时RPC通信在NameNode中建立对应的元数据结构MergeNode,在MergeNode中保存filemap,其中包含了小文件名和其在本块中的偏移量等信息。  1.2小文件映射  NameSpace主要维护文件元数据,正是根据元数据记录的文件存储信息,用户才能将在DataNode中分散存储的文件块找到并且组合成原本完整的

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。