etl执行过程的优化研究

etl执行过程的优化研究

ID:35134371

大小:1.51 MB

页数:44页

时间:2019-03-19

etl执行过程的优化研究_第1页
etl执行过程的优化研究_第2页
etl执行过程的优化研究_第3页
etl执行过程的优化研究_第4页
etl执行过程的优化研究_第5页
资源描述:

《etl执行过程的优化研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、东南大学硕士学位论文ETL执行过程的优化研究姓名:吴远红申请学位级别:硕士专业:计算机应用技术指导教师:徐宏炳20061227摘要ETL(Extraction—Transformation-Loading)是构建和维护数据仓库的基本构件。由丁二它处理的是海茸数据,如何加快响应时间成为值得研究的问题。大多数的ETL商业一I:具提供设计和管理ETL工作流的.f具.但不采用任何优化措施。设计好的ETLI作流交给DBMS执行,由DBMS完成优化任务。但ETL过程不能仅作为一个大的查询交给数据库去处理,在ETL过程中各个活动相互关联

2、.全局优化是必须考虑的。本文对ETL过程的逻辑优化进行了研究。对ETL工作流进行了形式化定义,介绍了状态等价变换的转换规则,状态变换过程的模式产生,转换规则的适用性。工作流的等价性判定规则。ETL工作流的优化问题可建模成状态空间搜索问题:一个ETL工作流可看作一个状态图.对每个状态图采用状态变换产生所有可能的等价状态图,从中找出代价最小的状态圈即为最优ETL执行过程。并提出了一个ErL优化体系结构。论文给出了获得最优化ETL过程的算法,首先通过穷举法对状态空间进行完全搜索来获得代价晟小的ETL1=作流。接卜.来介绍了启发式

3、算法和贪婪法米减少搜索的状态空问。并通过一系列实验结果论证了算法的有效性。本文最后设计了基f统计的优化器代价模型。给出各种操作活动的代价估算方法和估算所需的统计数据,并具体给出收集所需统计数据的脚本。最后结合操作活动的谓词属性的特征对复杂的统计数据管理工作进行了简化,提出一种快捷的统计数据的管理方法。关键字:ETL,工作流,优化,代价模型。基f统计的优化器东南大学碗}学位论文AbstractETLisatoolresponsiblefordatalondinEandmaintainingofdamwarehouse.How

4、"tOe1爵cianflyshortantheexecutiontimejSabigchallenge,becausethevolumeofdatatobeprocessediSverylarge.Sofar,IeadingcommerciaItoolsallowthedesignOfETLwokflows.butdonotuseanyoptimizationtechnique.11'edesignedworkflowsarepropagatedtotheDBMSforexecution;thUStIleDBMSunder

5、takesthetaskofOptimization.AoETLprocesscannotbeconsidered丛abigquery.IntheprocessOfETLeachofactivityiSrelated.SOthewholeoptimizationmustbeconsidered.1ntllispaper,wedelveintotheIogicaloptimizationofETLproces蠕.Firstwegiveaformaldefinitionoftheconstituentsof卸ETLworkfl

6、ow.Th朗wedefinedasetoftransitionsthatcanbeappliedtothestates.WealSOprovidedetailsonhowstatesaregenerated.theconditionsunderwhichtransitionsa陀allowedandthedeterminantrolesofequivalentworkflows.Sowesetupthetheoretical‰e、vorkfortheproblem,bymodelingitasastate-spacesea

7、rchproblem,witheachstategraphrepresentingaparticulardesignoftheworkflowasagraph,equivalentWOrkflowsareproducedfromstatetransitions。thestatespacejSfabricatedthroughasetofCoITectstatetransitions.andtlleminimizationoftheexecutioncostofanETLworkflOWisthebestOgle.Moreo

8、ver,weprovidealgorithmstowar出theminimizationoftheexecutionCOstofanETLworkflow.FirstweuseallexhaustivealgorithmtoexplorethesearchspaceinitSentiretyandtof

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。