欢迎来到天天文库
浏览记录
ID:35170163
大小:6.57 MB
页数:61页
时间:2019-03-20
《sql到spark查询优化机制研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、巧级;^2]_-.'—衛’^.fl^欠^,4撫秉巧茶,:;P硕±学位论文SQL到SPARK查询优化机制研究研究生姓名:蔡凯攘导师姓名:束爱波副教授申请学位类别工学硕±学位授予单位东南大学一级学科名称计算机科学与技术论文答辩y期2016年6月7日二级学科名称学位授予日期20年月日答辩委员会主席罗军舟教巧评阅人李伟副教授160502016年6月15日QueryOtimiza村〇田inSQLtoSarkppAThesisSubmited化SoutheastUniversityFort
2、heAcademicDegreeofMasterofEngineeringBYCaiKaizhenSupervisedbyAssociateProfessorSongAiboSchoolofComputerScience&EngineeringSoutheastUniversity,NanjingCHINAJune2016东南大学学位论文独创性声明本人声明所呈交的学位论文是我个人在导师指导下进行的研究工作及取得的研究^成果。尽我所知,除了文中特别加1^标注和致谢的地方外,论文中不包含其他人己经发表或撰写过
3、的研巧成果,也不包含为获得东南大学或其它教育机构的学位或证书而使用过的材料一。与我同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。么。'I备7'‘研究生签名:^^:名^^>日期/东南大学学位论文使用授权声明东南大学、中国科学技术信息研究所、国家图书馆有权保留本人所送交学位论文的、。复印件和电子文档,可W采用影印缩印或其他复制手段保存论文本人电子文档的内一致容和纸质论文的巧容相。除在保密期内的保密论文外,允许论文被查阅和借阅,可1^>、。论文?公布(包括1^1电子信息形式刊登)论文的全部内容或中英文摘要等部分内容的公布(包括
4、电子信息形式刊登)授权东南大学研究生院办理。■一研究生签名:师祭名:车多B期;Uj摘要摘要随着互联网的飞速发展W及各类新型互联网应用的普及,企业与研究机构面临的数据规模己经高速膨胀到了TB级乃至PB级。近些年来,伴随着内存价格的下降,为了一a进步提升大数据处理性能rk,基于内存的存储与计算逐步成为新的热点。Sp作为其中的代表一个轻量高速可拓展的分布式内,弹性分布式数据集RDD为核也,实现了ar存计算框架。然而当前Spk上层的高级查询工具SparkSQL的查询翻译没有针对多查询进行优化,批处理提交SQL查询语句被翻译为不同的Spark作业,作业之间
5、无法共享数据,无法充分发挥Spark内存计算的优势。本文针对SparkSQL存在的问题,对SQL到Spark作业查询优化机制进行了研究。本文深入分析了SparkSQL的工作流程,结合SQL查询的特点,在底层持久化文件系统与Spark核屯间加入存储中间层W解决查询间输入数据的共享问風并在复用现有分布式文件系统设计的基础上,通过合理的内存资源分配、高效的数据存储结构、低消耗的容错恢复设计优化查询数据的输入过程。在此基础上,引入多查询任务数据管理一模块对存储中间层进行管理,通过介入查询任务,实现数据的次载入、多次使用、及时释放,,并针对数据载入存储中间层时
6、面临的数据载入节点选择问题提出了基于代价模型的数据载入节点选择策略,建立了Spark作业执行代价的数学模型,对查询作业的耗费进行预估,基于代价模型选择适当的数据载入节点,实现集群资源的高效利用,提。高系统运行的效率,加快查询任务的执行速度本文在现有SparkSQL的基础上进行改化开发了SQL2Spark系统,实现了上述功-H生成测试Sark能。通过搭建实验平台,使用基准测试王具TPC数据,与现有的pSQL就査询性能进行分析比较。实验结果表明,改进后的SQL2Spark系统能够有效提高查询速度,减少磁盘I/O开销,降低内存占用,具有明显的优势。关键字
7、;Spark;Sparks化;查询优化存储中间层IABSTRACTABSTRACTWi化therapiddevelopmentofInternetandtheoularizationofnumerousnewInternetppappKcations,enterpriseandresearchinstitutebegintoencounterhugedatascale
此文档下载收益归作者所有