基于hdfs分布式存储技术研究与优化

基于hdfs分布式存储技术研究与优化

ID:33127317

大小:2.15 MB

页数:68页

时间:2019-02-20

基于hdfs分布式存储技术研究与优化_第1页
基于hdfs分布式存储技术研究与优化_第2页
基于hdfs分布式存储技术研究与优化_第3页
基于hdfs分布式存储技术研究与优化_第4页
基于hdfs分布式存储技术研究与优化_第5页
资源描述:

《基于hdfs分布式存储技术研究与优化》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、万方数据分类号:密级:UDC:编号:河北工业大学硕士学位论文基于HDFS分布式存储技术研究与优化论文作者:张海学生类别:全日制学科门类:工学硕士学科专业:计算机应用技术指导教师:马建红职称:教授万方数据DissertationSubmittedtoHebeiUniversityofTechnologyforTheMasterDegreeofComputerAppliedTechnologyRESEARCHANDOPTIMIZATIONOFTHEDISTRIBUTEDSTORAGEONHDFSByZhangHaiSupervisor:Prof.MAJian

2、hongNovember2013万方数据原创性声明本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文不包含任何他人或集体已经发表的作品内容,也不包含本人为获得其他学位而使用过的材料。对本论文所涉及的研究工作做出贡献的其他个人或集体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任由本人承担。学位论文作者签名:日期:关于学位论文版权使用授权的说明本人完全了解河北工业大学关于收集、保存、使用学位论文的以下规定:学校有权采用影印、缩印、扫描、数字化或其它手段保存论文;学校有权提供本学位论

3、文全文或者部分内容的阅览服务;学校有权将学位论文的全部或部分内容编入有关数据库进行检索、交流;学校有权向国家有关部门或者机构送交论文的复印件和电子版。(保密的学位论文在解密后适用本授权说明)学位论文作者签名:日期:导师签名:日期:万方数据摘要随着互联网的高速发展、互联网用户的快速增长,互联网中的数据也急剧的膨胀。为了给用户提供更好的服务互联网企业就要保存和分析这些数据,由此产生了云计算的概念。云计算的出现很好的解决了大数据的运算与存储的难题,其中云存储作为云计算的衍生也成为了国内外研究的热点。Hadoop的分布式文件系统HDFS凭借着高性能、高可靠性等优

4、势已成为业界研究云存储的标准模型。在HDFS中以流式的方式访问大文件时效率很高但是对海量小文件的存取效率比较低。针对这个问题本文提出了一种基于关系数据库的小文件合并策略,在集群中为每个用户建立一个用户文件,当用户上传小文件时把文件的元数据信息存入到关系数据库中并将文件追加写入到用户文件中,用户读取小文件时通过元数据信息直接以流式方式进行读取。此外当用户读取小于一个文件块大小的文件时还采取了数据节点负载均衡策略,直接由存储数据的DataNode传送给客户端从而减轻主服务器压力提高文件传送效率。除了对HDFS现有架构优化之外,本文还将Web技术与分布式存储技

5、术结合到一起搭建了一个云存储平台,同时利用Hadoop下的Hive工具对网站和集群的日志进行分析与挖掘从而获得用户浏览行为与服务器的运行状况。实验结果表明改进后的架构很好地解决了HDFS对大量小文件存取支持不足的缺点,提高了HDFS文件系统对海量小文件的读写性能,此方案适用于具有海量小文件的云存储系统。关键词:HDFS小文件优化文件合并负载均衡日志分析云存储-I-万方数据ABSTRACTWiththehigh-speeddevelopmentoftheInternetandtherapidgrowthofinternet’susers,theintern

6、et’sdataisalsoquicklyincreasing.Inordertoprovidebetterserviceforuserstheinternet’scompaniesshouldsaveandanalyzethedata.Forthisreasontheconceptofcloudcomputingisgenerated.Thecloudcomputingisagoodsolutiontothecomputeandstorageofthebigdata,thecloudstorageasaderivativesofcloudcomputi

7、ngisalsobecomingahottopic.ThedistributedfilesystemHDFSofHadoophasbecomethestandardofthestudyoncloudstoragebecauseoftheadvantagesofthehighperformanceandhighreliability.InHDFSthewayofstreamingtoreadandwritelargefilesisveryefficient,buttheefficiencyonreadingandwritingthemassofsmallf

8、ilesisrelativelylow.Accordingtothisprobl

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。