基于hive的性能优化方法的研究与实践

基于hive的性能优化方法的研究与实践

ID:37376992

大小:3.22 MB

页数:59页

时间:2019-05-22

基于hive的性能优化方法的研究与实践_第1页
基于hive的性能优化方法的研究与实践_第2页
基于hive的性能优化方法的研究与实践_第3页
基于hive的性能优化方法的研究与实践_第4页
基于hive的性能优化方法的研究与实践_第5页
资源描述:

《基于hive的性能优化方法的研究与实践》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于Hive的性能优化方法的研究与实践作者:指导教师:叶文宸郑滔教授南京大学研究生毕业论文(申请工程硕士学位)南京大学软件学院2011年5月IUlIIIIIIIIIIIIIIIIIY2373652_■■■■—■●■^一-·IneKeSearCnandPractiCeotPerformanceOptimizationBasedOnHiveWenChen,YeSubmittedinpartialfulfillmentoftherequirementsforthedegreeofMasterofEngineering^IIISupewised

2、byProfessorTao,ZhengSoftwareInstituteNANJlNGUNIVERSITYNanjing,China一一JMay,2011南京大学硕士学位论文摘要摘要随着网络信息处理市场的快速扩张和信息处理数据量的急剧增长,针对大规模和超大规模数据的分布式计算处理技术成为倍受关注的工程研究课题。为此,工程研发界普遍关注在互联网领域得以广泛应用的Hadoop技术,国内的高校和科研院所对Hadoop在数据存储,资源管理,作业调度,性能优化,系统高可用性和安全性方面的特性也在进行深入剖析。本文结合淘宝电子商务系统存储处理交易

3、数据的需求和应用,系统研究了基于Hadoop的数据仓库基础架构——Hive的性能的优化方法。本文首先给出了Hadoop系统计算特性的定义,分析了Hadoop的Map/Reduce任务分配方式和相应的文件存储系统HDFS。划分为三个层次实现调优目的,通过介绍分析底层参数及改变各参数值后达到的效果,引出可执行的优化方法。描述了基于Hadoop系统的基础架构Hive及类SQL语言HQL,并分析了普通数据库与分布式数据处理的异同点。通过典型的代码案例,阐述了Hive的逻辑特点,在引出相应的优化方向及参数调整方案之后,分别从解决数据类型问题,解决

4、数据倾斜问题,配合内部优化减少Job,结合淘宝数据需求特点等几方面,采用修改代码脚本的方法优化数据计算。实测数据表明,优化算法取得了良好的效果。关键词:大规模数据处理,并行计算,分布式计算系统,HDFS,HADOOP,Hive,优化南京大学硕士学位论文AbstractAstheincreasingdevelopmentandexpansionofthemarketfrOmInternet.thecomputingtechnologywhichforlargedatabecomethesubjectofmuchconcerntoengin

5、eeringstudies.So,theHadooptechnologywhatbewidelyusedintheInternethasbeenconcernfromengineeringresearchanddevelopmentsector,domesticuniversitiesandresearchinstituteshasusedtheHadoopindatastorage,resourcemanagement,jobscheduling,performanceoptimization,highavailabilityands

6、ecurityofthesystem’Scharacteristicsarealsoconductingin—depthanalysisThispaperbaseonapplicationstoprocesstransactionsdatastorageinTaobaoE—commerceSystem,studythemethodofoptimizationperformancebasedonHivewhichistheinfrastructurebasedonHadoop。Thispapergivesthedefinitionthec

7、haracteristicsofHadoopsystemincalculate,andanalyzedHadoop’SMap/ReducetaskandthecorrespondingfilestoragesystemHDFS.GiveUS3partsforoptimizationperformance.Usingtheintroductionofchangesinunderlyingparameterstoachievetheeffectofoptimizationwhichisexecutable;describeingtheHad

8、ooplanguageHQLbasedonSQL;usingthetypicalcodeexampletoexplaintheHivelogicalcharacteristics,afterthedescr

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。