基于hdfs的分布式存储研究与实现

基于hdfs的分布式存储研究与实现

ID:33748575

大小:1.96 MB

页数:81页

时间:2019-02-28

基于hdfs的分布式存储研究与实现_第1页
基于hdfs的分布式存储研究与实现_第2页
基于hdfs的分布式存储研究与实现_第3页
基于hdfs的分布式存储研究与实现_第4页
基于hdfs的分布式存储研究与实现_第5页
资源描述:

《基于hdfs的分布式存储研究与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、电子科技大学UNIVERSITYOFELECTRONICSCIENCEANDTECHNOLOGYOFCHINA硕士学位论文MASTERTHESIS论文题目基于HDFS的分布式存储研究与实现学科专业计算机应用技术学号201121060435作者姓名舒康指导教师罗光春分类号密级注1UDC学位论文基于HDFS的分布式存储研究与实现(题名和副题名)舒康(作者姓名)指导教师罗光春教授电子科技大学成都(姓名、职称、单位名称)申请学位级别硕士学科专业计算机应用技术提交论文日期2014.3.19论文答辩日期2014.

2、5.22学位授予单位和日期电子科技大学2014年6月29日答辩委员会主席评阅人注1:注明《国际十进分类法UDC》的类号。RESEARCHANDIMPLEMENTATIONOFDISTRIBUTEDSTORAGEBASEDONHDFSAMasterThesisSubmittedtoUniversityofElectronicScienceandTechnologyofChinaMajor:ComputerApplicationTechnologyAuthor:ShuKangAdvisor:LuoGuan

3、gchunSchool:SchoolofComputerScienceandEngineering独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。作者签名:日期:年月日论文使用授权本学位论文作者完全了解电子科技大学有关保留、使用学位

4、论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。(保密的学位论文在解密后应遵守此规定)作者签名:导师签名:日期:年月日摘要摘要随着信息化社会的快速发展,互联网中的数据急剧膨胀。大规模的数据生产就必然伴随着大规模的数据存储,但传统存储方式很难突破其存储限制,分布式存储系统应运而生。Hadoop是由Apache软件基金会开发的一个分布式计算

5、框架,目前已广泛应用于各大互联网公司。Hadoop的核心是MapReduce和HDFS,分别为数据提供计算和存储服务。HDFS是Hadoop的分布式文件系统,也是Google公司设计的GFS的一种开源实现,所以其基本结构与GFS一致,都属于主从模式。目前,由于Hadoop在云计算领域被越来越广泛地使用,以及HDFS本身优秀的存储能力,HDFS受到了广泛关注,许多公司和科研单位纷纷开展HDFS的研究工作。但是,HDFS仍有许多不完善的地方,它仍在不停地改进和更新。本文深入分析了HDFS的结构和运行机制,

6、指出了其部分设计缺陷,针对HDFS的副本策略进行改进,主要工作如下:(1)HDFS默认的静态副本冗余策略并不能区分热点数据,导致存放这些数据的节点成为集群的一个瓶颈。针对这一问题,本文提出了一种基于数据热度的动态冗余策略。该策略统计并预测每个文件的访问情况,并且每个文件的统计周期随其访问频率的变化而变化,这样能快速反映出数据热度的趋势,及时增加或减少副本。使用该策略能加快系统响应速度,提高集群的吞吐量,减少作业时间。(2)HDFS没有考虑DataNode的异构性,如果性能差的节点存放了更多的数据,那么

7、读取、处理数据时低性能节点需要承担更多的负载,闲置了高性能节点的处理能力,负载分配不均衡。针对这一问题,本文提出了一种基于节点性能评价和网络距离的放置策略。首先提供一个接口让用户自定义节点状态信息并配置其权重,然后使用改进的TOPSIS算法评价节点,最后综合网络距离选择节点放置副本。该策略允许用户自行设置关注点,并且在此基础上均衡各节点的负载,提高系统整体性能。(3)进行大量仿真和实验,并且基于改进的HDFS集群开发了C/S模型的云存储系统,用HDFS默认策略对比本文的改进策略,实验证明本文的改进策略

8、能较好地提升集群性能。关键词:HDFS,分布式存储,动态副本,副本放置IABSTRACTABSTRACTWiththerapiddevelopmentoftheinformationsociety,theInternethasseenanexplosionofdata.Large-scaleofdataproductionwillinevitablyaccompaniedbymassivedatastorage,buttraditionalstorage

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。