hadoop+i%2fo性能优化与研究

hadoop+i%2fo性能优化与研究

ID:34017455

大小:5.09 MB

页数:66页

时间:2019-03-03

hadoop+i%2fo性能优化与研究_第1页
hadoop+i%2fo性能优化与研究_第2页
hadoop+i%2fo性能优化与研究_第3页
hadoop+i%2fo性能优化与研究_第4页
hadoop+i%2fo性能优化与研究_第5页
资源描述:

《hadoop+i%2fo性能优化与研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、学校代号:10532学号:S1124W161密级:普通湖南大学工程硕士学位论文HadoopI/O性能优化与研究堂僮由遣厶丝名;囱匾龌诠塞提童旦期;2Q!垒:Q垒:2窆迨窒筌避旦期;2Q!垒:Q§:!墨PerfomlanceoptimizationandresearchonHadoopI/O上Jer士ornlanceoptlmlzatlonandresearchonHadooDI/()byXIANGLihuiB.E.(HunanCit),U11iVersity)2011AthesissubmittedinpartialsatisfIactionofmeRequiremen

2、tsfortIledegreeofMasterofEngineeringSo胁areEnginee血gi11t11e(haduateSchoolofHuIlallUniVers时SupervisorAssociateProfessorMIAOLiSeIliorEngineerCHENExiaIlgApril,2014湖南大学学位论文原创性声明本人郑重声明:所呈交的论文是本人在导师的指导下独立进行研究所取得的研究成果。除了文中特别加以标注引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写的成果作品。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本

3、人完全意识到本声明的法律后果由本人承担。作者签名:向丽嘶日期:劲f睥r月伽日学位论文版权使用授权书本学位论文作者完全了解学校有关保留、使用学位论文的规定,同意学校保留并向国家有关部门或机构送交论文的复印件和电子版,允许论文被查阅和借阅。本人授权湖南大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存和汇编本学位论文。本学位论文属于l、保密口,在年解密后适用本授权书。2、不保密以(请在以上相应方框内打“/”)作者签名:向而挥日期:加co年r月如日刷醴名姆℃舔飙洳砰r月叫日HadoopI/o性能优化与研究摘要随着大数据的飞速发展

4、,作为海量数据处理的代表技术,Hadoop技术受到了越来越广泛的关注。它的高扩展性,高容错性以及低成本的优势使得它广泛应用于数据中心,社交媒体,日志分析等大数据应用中。然而性能方面,Hadoop较并行数据库相差甚远。Hadoop的性能体现在众多方面,如10,运行效率,能耗等。而IO是软件高性能运行效率的关键,当然Hadoop也不例外。本文探讨了国内外Had00p性能优化的研究现状,介绍了Hadoop的基本框架,总结了现有的Hadoop性能问题主要体现在低延迟访问,大量小文件,单节点故障等问题上,这些问题无不考验Hadoop的I/0能力。本文从参数调优的角度分析Hadoo

5、p性能优化方法以及影响HadoopI/O性能的参数。通过调研,发现影响I/0的参数主要分为3类:静态参数,动态参数,硬件参数。第二类参数涉及代码的修改,本文将不做考虑。因此分别从第一类参数以及第三类参数出发,研究如何使用参数对HadoopI/O性能进行优化。对于第一类参数,由于并行数据库比Hadoop性能好的一个重要原因是使用了压缩,因此,本文展开了压缩对Hadoop性能影响研究。通过分析Hadoop中的压缩,得到一个压缩使用策略,并用不同的压缩配置和不同的数据集对压缩使用策略进行验证补充。然而,压缩是一把双刃剑,它减少了IO负载,但增加了数据处理的步骤,使用了额外的资

6、源。因此,本文使用Ganglia和作者实现的10costmodel去量化压缩的代价与收益。综合使用参数调优,性能监控以及成本分析进行HadoopI/O性能优化。对于第三类参数,磁盘是Hadoop集群最重要的存储介质,如何将磁盘节能技术应用到Hadoop集群中,实现Had00p的绿色存储是非常有意义的。通过分析磁盘与Hadoop集群的交互,发现Reduce阶段shume到内存的过程中,磁盘是空闲的。基于磁盘空闲就闲置的思想,本文从Hdparm的源代码出发,实现了与磁盘状态相关的四个接口,并使用Blktrace区分真正的磁盘IO,从而实现一个简单的磁盘能耗控制算法。本文提出

7、的压缩使用策略能帮助Hadoop使用者何时何地使用压缩以及使用哪种压缩。简单磁盘能耗控制算法不仅能节约能耗,同时可使资源充分利用。实验表明:一些应用合理使用压缩能使Hadoop性能提高65%,将简单磁盘能耗控制算法应用到集群中,平均一个节点能节省0.22WH。关键词:Hadoop;性能优化;I/O;压缩;能耗;磁盘节能;绿色存储;II工学硕士学位论文AbstractWiththerapiddeVelopmentofbigdata,asarepresentationofmassivedataprocessingtechnology,Hado

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。