列存储系统面向列的连接顺序优化研究-论文.pdf

列存储系统面向列的连接顺序优化研究-论文.pdf

ID:53764484

大小:1.54 MB

页数:11页

时间:2020-04-25

列存储系统面向列的连接顺序优化研究-论文.pdf_第1页
列存储系统面向列的连接顺序优化研究-论文.pdf_第2页
列存储系统面向列的连接顺序优化研究-论文.pdf_第3页
列存储系统面向列的连接顺序优化研究-论文.pdf_第4页
列存储系统面向列的连接顺序优化研究-论文.pdf_第5页
资源描述:

《列存储系统面向列的连接顺序优化研究-论文.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、计算机研究与发展ISSN1000—1239/CN11-1777门rPJournalofComputerResearchandDevelopment5O(7):1473-1483,2O13列存储系统面向列的连接顺序优化研究王梅陆戌辰乐嘉锦(东华大学计算机科学与技术学院上海201620)(wangmei@dhu.edu.cn)Column—OrientedJoinOrderOptimizationinColumnStoreSystemsWangMei,LuXuchen。andLeJiajin(CollegeofComputerScienceandTechnology,DonghuaUniver

2、sity,Shanghai201620)AbstractJoinisoneofthemostimportantoperationswhichcanlargelyaffecttheefficiencyofcolumnstorebasedqueries.Mostworkoncolumn—storesisfocusedontheimprovingofstoragestructureandthebuildingofphysicalauxiliarystructures,whilethelogicalplanoptimization,especiallyearlyjoinstrategyoptimi

3、zation,hasseldombeenconsideredOnthebasisofthisproblem,thispaperpresentsanewjoinstrategyoptimizationmethodaccordingtothecharacteristicofcolumn—orientedstoragestructureandanalyticalquery.Weadopttheearlyoptimizationstrategyinourmethodandproposea“facttablepush—down”rule.Inparticular,thebushytreestruct

4、urewillbeconsideredinthemulti—fact—tablecasetoreceivea“best”oinpathwithsmal1timeandspacecomplexity.Thenweprovideacostestimationtoverifythecorrectnessoftheproposedjoinstrategyoptimizationmethod.Finally,experimentalresultsonthelarge—scaledatawarehousebenchmarkdatasetsSSBalsoverifytheeffectivenessoft

5、heearlyoptimizationstrategyandtheproposedpush—downrI】】e.Kevwordsdatabase;columnstore;queryoptimization;joinstrategy;rule—basedoptimization(RBO)摘要连接操作是影响列存储数据查询效率的重要操作之一.对于列存储系统中的连接操作优化,以往的研究工作大多专注于对数据组织结构的优化以及辅助物理结构的建立上,极少涉及逻辑层特别是早期的连接策略优化.为此,根据列存储数据的特点和分析型查询需求的特征,提出了一种新的列存储连接优化方法.该方法采用提早优化的策略,使用“

6、事实表下推”的优化规则,并在多事实表查询条件下引入浓密树进行连接顺序决策,以较小的时空复杂度获得“最优”的连接执行顺序.使用代价估计模型对提出的连接策略优化方法进行了理论验证.同时,在大规模数据仓库基准数据集SSB上通过实验验证了提早优化机制及下推规则的有效性.关键词数据库;列存储;查询优化;连接策略;规则优化中圈法分类号TP311.1随着信息时代数据量的爆炸式增长,在海量数数据量大、查询密集、更加关注对属性而非实体的处据分析处理的需求驱动下,数据仓库、数据挖掘、决理.列存储技术在物理上以列为单位对数据表进策支持等分析型应用迅速发展.此类应用的特点是行拆分,将相同列的数据连续存储,在查询过

7、程中只收稿日期:2011O6—21;修回日期:2012-10—23基金项目:“核高基”国家科技重大专项基金项目(2010ZX01042—001—003—004);国家自然科学基金项目(61070031,61070032,6l103046);上海市自然科学基金项目(11ZR1401200)计算机研究与发展2013,5O(7)(a)中相应的JOIN节点内,记录相关异表条件连接略:将选择性最优的节点交换到单表查询子树最左的集合

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。