欢迎来到天天文库
浏览记录
ID:31952008
大小:1.80 MB
页数:48页
时间:2019-01-29
《多核环境下内存数据库查询优化的-研究》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、华中科技大学硕士学位论文1.1.2多核环境下的数据查询从前面对海量实时数据查询的需求和特性可以看出,内存库中同时接受大量的连接数多、关系表数目庞大的查询语句,随着语句中关系数的增加,语句的执行时间呈指数增长[3],如果未对这些语句进行优化处理,执行一个查询语句一般占用2-3分钟甚至更长的时间,后提交的查询业务需等待很长时间。另一方面,由于客户端提交的查询事物的结果集中属性繁多,如果优化器未对这些中间结果集进行优化管理,语句在执行过程中占用大量的内存,使得服务器端并发执行的语句少,同样会出现响应客户端时间过长的现象。在内存库的数据查询过程中可通过如下两种方式提高查询性能:¾硬件:
2、提高服务器端硬件配置;¾软件:对提交的SQL语句进行优化处理。提高服务器端硬件配置主要是通过使用高性能多核CPU和提高内存容量的途径。但是随着以后实时数据的业务逐渐扩大,通过提高硬件配置无法满足实际的应用需求。由1.1.1节可知广州市一天的采集数据就达到一亿多条,外加上一些参数统计信息表,这样纯粹存储在内存库中的数据有15G左右,即使对于一个20G内存的服务器也显得甚为吃紧。如果在服务器上进一步进行业务的查询,必然造成内存容量的限制而导致业务的查询无法正常进行。为更好地解决数据查询问题,主要是通过对提交的SQL语句进行优化处理,同时借助现在流行的多处理器对查询业务进行并行处理的
3、方式。SQL语句查询优化是对提交的SQL语句进行调整,确定语句的执行顺序和执行路径,得出最优的执行方案[3],以解决在有限的硬件资源的基础上完成海量实时数据查询的问题。另一方面,当今的多核系统已经可以拥有2到16个核,在未来的3年中核数目将会达到100个,未来10年内会有1000核的产品面试,并且现在企业内部高性能服务器端都大量采用多核处理器的优势来提升业务处理的速度,为提高数据查询效率,内存库优化器模型可在设计业务的执行方案时充分利用多核处理器的优势来提升数据查询性能。1.1.3SQL语句查询优化简介关系型查询语言是一个对于存储在关系型数据库中的数据进行访问的高度抽象的接口,
4、SQL(StructuredQueryLanguage)结构化查询语言是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。随着时间的推2华中科技大学硕士学位论文移,SQL语句逐渐成为关系型查询语言的标准[4]。SQL语句的查询过程由两部分组成:语句的查询优化和执行引擎。该课题主要讨论语句的查询优化部分。SQL语句的查询优化就是为语句的执行提供一个最优的或近似最优的执行计划。通常对于一个给定的查询语句,有着很多的执行计划,这些计划构成了该语句执行计划的搜索空间,查询优化的一个主要职能之一就是从这个搜索空间中找出最优的执行计划[4]。因此,查询优化需要解
5、决三个问题:1.确定执行计划集(搜索空间);2.代价评估,对于每一个计划,评估该计划执行的代价;3.从执行计划集中找出最优或近似最优执行计划的搜索算法。一个性能良好的查询优化器需要实现三个功能:优化器确定的搜索空间中包含代价最小的执行计划;对于执行计划的代价评估近似正确;搜索算法高效,能快速找到代价最低或较低的执行计划。1.2相关研究现状自从上个世纪80年代IBM推出在IBM370上运行的OBE内存数据库和贝尔实验室DALI内存数据库模型以来,对内存数据库的查询优化的研究一直是内存数据库的研究热点,对于内存数据库的查询优化出现了很多的设计方案。System-Rproject为关
6、系型数据库的查询优化做了很多奠基性的工作。该项目中的很多算法,结论都被引用到后期商用数据库的查询优化的工作中。在该项目中提出了搜索空间的构成方案并提出了动态编程算法在空间中搜索最优执行计划[5]。随着多核系统在服务器端的应用,并发执行查询语句成为可能。并行查询优化旨在充分利用多核技术提高查询优化的效率。并发对查询语句进行优化,这样可以成倍提高优化效率[6]。渐进性参数查询优化的方案(ProgressiveParametricQueryOptimization)对SQL语句的查询优化是以渐进性的方式逐步完成。当一个查询语句到来时,如果可以在可执行计划集中(之前已存储在内存库的服务
7、器中)找到一个计划符合该语句的执行计划,就直接使用该计划,如果没有找到符合条件的计划,就调用优化器对该语句进行优化,并将优化的计划及参数存储起来[7,8]。美国Michigan大学的JohnHolland从对生物例子的研究中提出遗传算法,它是受达尔文的遗传学说的启发,该算法对初始搜索空间中的执行计划进行不断的变异以淘汰掉次优的执行计划,最后确定一个搜索空间,[9]并随机在该空间中选择一个执行计划提交。3华中科技大学硕士学位论文上面所描述的查询优化方案中都无法回避一个难题:随着查询业务越来越复
此文档下载收益归作者所有