基于hadoop的分布式文件系统优化技术研究

基于hadoop的分布式文件系统优化技术研究

ID:32972373

大小:10.28 MB

页数:56页

时间:2019-02-18

基于hadoop的分布式文件系统优化技术研究_第1页
基于hadoop的分布式文件系统优化技术研究_第2页
基于hadoop的分布式文件系统优化技术研究_第3页
基于hadoop的分布式文件系统优化技术研究_第4页
基于hadoop的分布式文件系统优化技术研究_第5页
资源描述:

《基于hadoop的分布式文件系统优化技术研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、硕士学位论文IIlllIIllllIIlllllIllllIIlY2384318基于Hadoop的分布式文件系统优化技术研究ResearchonOptimizationTechnologyofDistributedFileSystemBasedonHadoop作者姓名:学科、专业:学号:完成日期:2013/4/1兰州交通大学LanzhouJiaotongUniversity独创性声明本人声明所呈交的学位论文是本人在导师指导下进行的研究工作和取得的研究成果,除了文中特别加以标注和致谢之处外,论文中不包含其他人已经发

2、表或撰写过的研究成果,也不包含获得兰翅交通太堂或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。学位论文作者签名:狄得爱签字日期:2。侈年6月/争目学位论文版权使用授权书本学位论文作者完全了解兰趔变通态堂有关保留、使用学位论文的规定。特授权兰捌童通太堂可以将学位论文的全部或部分内容编入有关数据库进行检索,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。(保密的学位论文在解密后适用本

3、授权说明)学位论文作者签名:舐得襄签字日期:;zoljsb月2牛日导师签名:签字日期:2》B年易月’一、Jl,/7日f兰州交通大学硕士学位论文摘要随着移动互联网的发展,网络中的数据量急剧增加,这些数据经过分析和挖掘后可以得到非常有价值的信息,这些信息可用于商业、科研、生产等各方面研究。急剧增长的海量数据如果使用传统的超级计算机来处理会带来高昂的花费、巨大的能源消耗,而云计算作为一种廉价、高效、可靠的解决方案得到了人们的关注。Hadoop是一个开源的云数据处理平台,可以广泛的应用于海量数据的处理和分析。云平台采用了

4、分布式文件系统,著名的分布式文件系统有Lustre、GPFS(GeneralParallelFileSystem)等,这些系统的设计都是基于大型机,不适合目前以微机为主的云计算环境。本文采用GlusterFS作为云平台的分布式文件系统,GlusterFS是一个适用于微机的分布式文件系统。本文首先要实现GlusterFS与Hadoop的核心模块Common的连接,这点的实现本文利用了GlusterFS自身的Translator机制,该机制能够实现所有GlusterFS的扩展功能。利用Translator中的库函数连

5、接Hadoop的Common核心,获取相应存储权限并定义了org.apache.hadoop.fs.glusterfs类,然后创建符合GlusterFS数据格式的数据流并采用FUSE(FilesysteminUserspace)方式将GlusterFS挂载到了Hadoop中,从而替代了Hadop中自身的分布式文件系统HDFS(HadoopDistributedFileSystem)。这样就能避丌HDFS的缺陷,利用GlusterFS的优点提升Hadoop整体的云计算性能。该方案实现的优化平台采用了Infiniba

6、nd与RDMA(RemoteDirectMemoryAccess)协议结合的传输网络,该网络能保证Hadoop不会受到网络带宽和速率的限制,进一步提高了Hadoop的性能;根据系统中网络拥塞情况,采用了一个判断函数来决定是否在当前网络中采用数据压缩以节省网络的带宽,进一步提升了Hadoop的数据传输速率:针对当前GlusterFS的数据缓存算法考虑的不是很全面,采用了GAC(GlusterFSAutomaticCacheAlgorithm)数据缓存算法,该算法先对当前数据的顺序性进行有无判断,再对有顺序性的数据进

7、行强弱判断,针对强顺序性的数据采用预读粒度计算公式计算当前预读粒度的大小,这样可以通过合理的预读来提升Hadoop的文件系统性能。这一系列的优化措施较大的提升了Hadoop平台中分布式文件系统的性能。本文通过在Hadoop平台上的测试,证明了本文的优化Hadoop系统在分布式文件系统方面性能提高了10倍左右,网络性能提高了3倍以上,Hadoop平台云计算性能提高了2倍以上。关键词:GIusterFS;Hadoop;GtoH接口;GAC缓存算法:数据压缩论文类型:应用研究AbstractWlfhthedevelop

8、mentofmobileIntemet,theamountofdatainthenetworkincreaseddramatically,thesedataafteranalysisanddataminingcanbeveryvaluable,theseinformationcanbeusedforcommercial,scientificresearch,product

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。