基于分布式数据库的半连接查询计划选择算法

基于分布式数据库的半连接查询计划选择算法

ID:22447376

大小:24.50 KB

页数:5页

时间:2018-10-29

基于分布式数据库的半连接查询计划选择算法_第1页
基于分布式数据库的半连接查询计划选择算法_第2页
基于分布式数据库的半连接查询计划选择算法_第3页
基于分布式数据库的半连接查询计划选择算法_第4页
基于分布式数据库的半连接查询计划选择算法_第5页
资源描述:

《基于分布式数据库的半连接查询计划选择算法》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于分布式数据库的半连接查询计划选择算法  摘要为了提高分布式数据库系统的查询效率,采用新的代价模型在执行半连接计划之前评估和传输执行与优化代价。由于剔除与连接无关的数据,有效减少连接操作关系中的无用数据,选择执行代价更小的执行方法。首先对分布式数据库查询执行代价模型进行分析,然后对半连接中的连接运算方式、连接关系的传输方法和执行场地等问题进行研究,并计算其评估方法的执行代价,给出一种可行的查询计划选择算法,最终确定执行的场地、连接的方法和传输方法。  【关键词】半连接查询分布式数据库查询优化代价模型  基于直接连接算法的查询优化处理,针对执行场地的不同,针对连接方式

2、的不同,以及针对传输方法的不同的查询优化已有不少研究。而基于半连接算法的查询优化处理在这三个方面的综合评估和代价分析研究还较少。因此本文重点研究基于半连接的实现方法,综合考虑局部代价和传输代价的相对费用,计算所有评估方法的执行代价,选择其中执行代价较小的执行方法,最终确定执行的场地、连接的方法和传输的方法。  1分布式查询代价模型  分布式数据库的查询执行代价中主要由以下3部分组成:  (1)访问辅助存储器的代价(简称I/O代价);  (2)计算代价(简称CPU代价);  (3)传输代价。分布式数据库中,传输代价是总代价的重要组成部分。  1.1CPU代价  由于在实

3、际运算环境中,传输代价与I/O代价远远超过连接操作的代价,在具体计算中可忽略不计。  1.2I/O代价  目前,使用较多的辅助存储器主要是磁盘,其一次访问的所需的代价可表示为  CIO=D0+D1*X  其中:X为存取数据的大小;D0为与X无关的I/O代价,包括寻道时间和等待时间;D1为单位数据的传输时间。  一般地D0>>D1*X,故CIO≈D0,I/0代价≈I/0次数*D0。  由于不同算法在I/O代价上没有明显的差异,因此不作深究,在计算中用常数Ti替代。  1.3传输代价  分布式数据库系统中的传输代价与网络的类型有关,通常可以近似地表示为  Cconvey(

4、X)=C0+C1*X  其中:X为传输数据的大小;C0为传输一次数据所必需的初始代价;C1为单位数据的传输代价(代价系数);C0、C1一般随网络的类型而变化,对于某一具体的网络,其值为常数;Cconvey(X)一下简称Cc(X)。  2半连接查询算法  基于半连接(Semi-Join)算法优化查询,其基本思想是经过半连接操作减少操作关系,从而减少站点间数据的传输量。  2.1半连接算法的关系代数  假定站点1上的关系A与站点2上的关系B在属性A.x=B.x上进行等值连接,采用半连接方法表示这一操作为:  A∞A.x=B.xB=(A∝A.x=B.xB)∞A.x=B.xB

5、  其中,∝符号为半连接操作符。  一次完整的半连接方法的连接操作过程关系代数可表示为  A∞A.x=B.xB=(A∞A.x=B.x(πB.x(B)))∞B(1)  其中,∝代表半连接操作,∞代表连接操作,π代表投影操作。  2.2半连接算法的连接过程  针对公式(1),半连接的连接过程可分为五步。  (1)在站点2上将B在属性B.x上进行投影获得B'=πB.x(B);  (2)将B'传送到站点1;  (3)在站点1上计算A'=A∞B'的半连接结果;  (4)将站点1上的A'与站点2上的B传送到发起查询请求的站点3上;  (5)在站点3上进行连接操作。  2.3半连接

6、算法代价估计  查询发起请求站点3有3种情况:设站点3=站点1的Site(A);设站点3=站点2的Site(B),等价于Site(A),不予讨论;或者其他场地Site(other)。根据查询地点的不同,则传送的数据量和传输费用会不同。  为了准确描述代价的计算,作如下定义:  (1)一个关系A的元组数,表示为size(A);  (2)每个属性xi的长度表示为length(A.xi),并将所有属性大小的总和,即一个元组的大小表示为length(A)。  3半连接查询优化  由于代价模型已知,因此在查询开始前如果进行查询计划的选择,可以保证连接代价的优化。  3.1当查询

7、发起站点包含其中一个表时  4结束语  本文研究了分布式数据库中以总代价最小为半连接查询优化准侧,着重考虑了传输代价,分析了半连接算法实现过程中影响执行总代价的三方面因素:连接运算的方法、连接关系的传输方法、执行场地,给出了半连接算法可能的实施方案并评估了不同条件下各种方案的执行代价,并给出了一种可行的优化算法以实现查询计划方法。  参考文献  [1]ShaoPeiying.Distributeddatabasesystemanditsapplication[M].SciencePress,2005  [2]BassiliadesN,Vlahavas

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。