资源描述:
《基于多Agent与工作流的分布式ETL引擎的研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、第29卷第1期计算机应用Vo.l29No.12009年1月JournalofComputerApplicationsJan.2009文章编号:1001-9081(2009)01-0319-04基于多Agent与工作流的分布式ETL引擎的研究丁进,郭朝珍(福州大学数学与计算机科学学院,福州350002)(dingj073@163.com)摘要:针对传统ETL工具集中式执行方式的不足,提出了一种基于多Agent与工作流相结合的分布式ETL引擎的体系结构。该体系结构由一个主控引擎和多个执行引擎组成,执行引擎可自主地向主控
2、引擎注册执行服务,并利用分布式计算和多线程并行计算技术,实现由多个执行引擎协同执行ETL工作流,从而提高整个系统的灵活性和吞吐率。实验结果表明,该引擎具有较好的可扩展性和负载平衡性能,并提高了执行效率。关键词:抽取)转换)加载;多Agent;工作流;分布式;协同中图分类号:TP311;TP391文献标志码:AResearchofdistributedETLenginebasedonmult-iagentandworkflowDINGJin,GUOChao-zhen(CollegeofMathematicsandCo
3、mputerScience,FuzhouUniversity,FuzhouFujian350002,China)Abstract:AimingatthedeficiencyofcentralizedexecutionmodeoftraditionalExtraction-Transformation-Loading(ETL)tools,thispaperputforwardthearchitectureofdistributedETLenginebasedonthecombinationofmult-iagenta
4、ndworkflowtechnique,whichconsistsofonemainengineandmanyexecutiveengines.Theexecutiveenginescanregisterexecutionservicestothemainengineindependently,andanETLWorkflowcanbeexecutedcooperativelyonseveralexecutiveenginesbyusingdistributedandconcurrentcomputingtechn
5、ique,whichimprovesthesystempsflexibilityandthroughputrate.Finally,resultsprovethatithasbetterexpansibilityandcanachieveloadbalancingquitewellandraisetheperformanceefficiency.Keywords:Extraction-Transformation-Loading(ETL);mult-iagent;workflow;distributed;coope
6、rative[3]以实现其设计目标的自治系统。它能作用于自身和环境,0引言并能对环境做出反应。Agent具有以下特性:1)反应性,能够ETL即数据的抽取(Extraction)、转换(Transformation)与感知环境,并对环境的变化及时地做出反应。2)主动性,能[1]加载(Loading)。目前市场上主流的国外ETL工具有两大够主动发动某种动作行为,以满足它们的设计目标。3)自治类:一类是专业的ETL厂商的产品,典型的有DataStage、性,无需靠人或其他Agent的干预,自主地决定其自身行为。Power
7、Center等;另一类是整体方案提供商的产品,如Oracle为完成某个目标,可能需要多个Agent间协同工作,这就的WarehouseBuilder、Microsoft的DTS等。在国内市场方面,形成了多Agent系统(Mult-iAgentSystem,MAS)。在MASETL产品的开发相对来说比较落后,典型的产品有睿智ETL、中,每个Agent负责一些特定的任务,由于每个Agent仅拥有BeeLoad等产品。专业的ETL产品一般都有完善的功能,但局部的信息和有限的计算能力,所以多个Agent间通过Agent其价
8、格昂贵;整体方案提供商的产品只对相同厂商的产品有通信协议进行相互通信、协同工作,以共同完成目标。很好的支持,对其他厂商产品的支持有限;而国内的ETL产工作流是指/全部或部分,由计算机支持或自动处理的品在功能、性能上都不够理想,可操作性较差。而且现有的业务过程0[4]。其主要思想是针对工作中具有固定顺序和规ETL工具的大多采用集中式执行的方式,虽然易于实现、维