列存储数据仓库中的查询优化-研究

列存储数据仓库中的查询优化-研究

ID:32023988

大小:2.18 MB

页数:65页

时间:2019-01-30

列存储数据仓库中的查询优化-研究_第1页
列存储数据仓库中的查询优化-研究_第2页
列存储数据仓库中的查询优化-研究_第3页
列存储数据仓库中的查询优化-研究_第4页
列存储数据仓库中的查询优化-研究_第5页
资源描述:

《列存储数据仓库中的查询优化-研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、o’一‘摘要数据仓库查询一直是数据库领域的研究重点。近年的研究发现列存储体系仅从磁盘或内存中读取与查询相关的列,相对于行存储来说,更适合0LAP、数据仓库等查询密集型应用。作为一个较少更新的读优先系统,基于列存储的数据仓库系统能提高查询性能的思想已经占据了主导地位。论文研究了数据仓库技术、列存储技术、以及现有的查询优化技术。设计实现了列存储数据仓库查询模块,包括词法语法分析器、预一,一处理器、查询优化器以及计划产生器。尤其是在查询优化方面,结合基于规则的优化方法(paso)和基于代价的优化方法(CBO)设计了查询优化器,提出了列的连接策略优化方法。首先

2、,论文分析了数据仓库查询特点以及现有的列存储查询优化技术,详细讨论了列存储系统PAX、InfoBright、C-Store以及MonetDB的存储方式和查询方式,并总结了列存储和行存储的查询特点差异。然后,论文对列存储的查询模块进行了深入探究,设计实现了查询编译器的各个功能模块。首先利用开源工具Flex和Bison,结合本系统语法树结构实现了词法语法分析器;根据SQL语句的标准和本系统查询树结构设计实现了预处理器,包括它的三大功能模块:语义分析、对象特征绑定以及部分逻辑计划的生成;在剖析现有的列存储连接策略的基础上,设计实现了一种新的列存储查询优化方法

3、。该方法利用基于规则的优化方法为列存储数据查询制定优化规则,过滤掉不可能产生最优计划的候选计划。然后设计实现了基于代价的优化方法:根据动态Huffman树原理和左深连接树原理对查询执行顺序进行改进,进一步减少候选计划的规模;根据列存储数据的特点将候选计划中每个连接结点的执行策略归纳为串行连接和并行连接两类,并在此基础上提出代价估计模型,集中针对这两种连接策略进行代价估计和策略选择。实验证明该方法以较小的时空复杂度获得了优化的查询计划。最后,论文介绍了逻辑计划产生器和物理计划产生器的原则和方法,并对列存储数据仓库的查询优化进行了总结和展望。‘关键词:数据

4、仓库,列存储,查询优化,连接策略ABSTRACTDatawarehousequeryisalwaysthehotpointintheareaofdatabaseresearch.Recentstudiesshowthatcolumn-store,astoragesystemonlyreadsquery-relatedattributesintomemoryfromdisk,ismoresuitableforOLAP,datawarehouseandotherquery—intensiveapplications.Asaread-optimizedsys

5、temwithlessupdate,theideaofcolumn—orienteddatawarehousecanimprovethequeryperformancehasalreadyheldadominantposition.Thepaperresearchedthetechniquesofdatawarehouse,column—storesandcurrentqueryoptimization.Itdesignedandrealizedthequerymoduleofcolumn—orienteddatawarehouse,including

6、theparser,thepreprocessor,thequeryoptimizerandtheplangenerator.Intheaspectofqueryoptimizer,itisdesignedbymergingtherole-basedoptimization(RBO)methodandthecost-basedoptimization(CBO)method.Andthenitproposedthejoinstrategyoptimizationincolumn-orientedqueries.Firstly,paperanalyzedt

7、hequeryfeaturesofdatawarehouseandcurrentcolumn—orientedquerytechniques.Itdiscussedthestoragemodeandquerymethodofseveralcolumn—orientedsystemsindetailsuchasPAX,InfoBright,C-StoreandMonetDB.Afterthat,itsummarizedthequerydifferencesbetweencolumn—storesandrow—stores.Secondly,paperdi

8、dsomedeepresearchonquerymoduleofcolumn—stores.I

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。