数据仓库etl任务调度模型研究

数据仓库etl任务调度模型研究

ID:34457162

大小:372.77 KB

页数:5页

时间:2019-03-06

数据仓库etl任务调度模型研究_第1页
数据仓库etl任务调度模型研究_第2页
数据仓库etl任务调度模型研究_第3页
数据仓库etl任务调度模型研究_第4页
数据仓库etl任务调度模型研究_第5页
资源描述:

《数据仓库etl任务调度模型研究》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第26卷第2期控制与决策2011年2月Vol.26No.2ControlandDecisionFeb.2011文章编号:1001-0920(2011)02-0271-05数据仓库ETL任务调度模型研究宋旭东1;2,刘晓冰2(1.大连交通大学软件学院,大连116028;2.大连理工大学CIMS中心,大连116024)摘要:数据仓库系统包含众多的抽取-转换-加载(ETL)任务,这些任务具有一定的优先约束关系.在多处理机环境下,如何高效地调度这些ETL任务是构建数据仓库需要研究的重要问题.对此,在对数据仓库ETL任务调度规则进行归纳总结的基础上,以数据仓库总的ETL完成时间

2、最短为目标,建立了数据仓库ETL任务调度模型.同时结合问题的特点,采用同层划分的思想,提出基于同层划分遗传算法求解问题的方法.最后,通过应用实例验证了所建立模型和求解算法的可行性和有效性.关键词:数据仓库;抽取-转换-加载;任务调度;同层划分;遗传算法中图分类号:TP273文献标识码:AStudyonETLtasksschedulingmodelindatawarehouseSONGXu-dong1;2,LIUXiao-bing2(1.SoftwareInstitute,DalianJiaotongUniversity,Dalian116028,China;2.CIM

3、SCenter,DalianUniversityofTechnology,Dalian116024,China.Correspondent:SONGXu-dong,E-mail:xudongsong@126.com)Abstract:Datawarehousesystemincludesmanyextract-transform-load(ETL)taskswhichhavesomeprecedenceconstraintrelations.Inamulti-processorenvironment,howtoefficientlyscheduletheseETLtas

4、ksisoneoftheimportantaspectsforconstructingdatawarehouse.OnthebasisofclassificationandsummaryofdatawarehouseETLschedulingrules,adatawarehouseETLschedulingmodelisestablishedtominimizethetotalETLexecutiontime.Atthesametime,basedonthecharacteristicsoftheproblem,adoptingthesamelayerdivisions

5、trategy,ageneticalgorithmbasedonthesamelayerdivisionisproposed.Finally,theapplicationcaseofthemodelisrepresented,andthecaseresultsshowthefeasibilityandeffectivenessofthismodelanditsalgorithm.Keywords:datawarehouse;ETL;taskscheduling;samelayerdivision;geneticalgorithm1引引引言言言框架,给出了动态调度、静态

6、调度和同层划分等3种在数据仓库的建立过程中,核心技术是抽取、转调度策略,但缺少对调度模型的数学表示,没有给出换、装载(ETL),它为数据仓库提供及时、高质而准确求解算法的机理描述;[5]给出了一种基于贪婪算法的数据.由于ETL包括众多的处理任务,且这些处理ETL最优任务调度方法,但该方法调度的粒度只能任务之间有一定的约束关系,如何高效地调度和管理限于ETL单个任务,无法精细到任务中包含的多个这些处理任务是数据仓库ETL实施中非常重要的工操作;[6]提出了ETL过程的“主表衍生”模式,给出作,也是提高数据仓库开发效率和资源利用率的关键.了ETL执行的流水线优化方法,但该

7、方法是以ETL关于任务分配与调度问题被认为是NP完全问各活动串行约束为前提,缺少一定通用性.其他相关[7-9]题[1],不可能在多项式时间内找到问题的最优解.近研究还有ETL执行过程优化,这些研究工作主要些年,学者们提出了基于遗传算法的任务分配与调着眼于ETL工作流逻辑转换的过程优化,通过减少处度[2-3],为求解此类NP完全问题提供了新的途径.然理过程的数量或改变过程的执行顺序来减少ETL工而,这些算法基本上都是针对一个任务的无回路图作流的执行代价,并没有对ETL活动的分配和调度问(DAG)的调度,针对数据仓库ETL多任务调度的研究题展开深入研究.

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。