欢迎来到天天文库
浏览记录
ID:11000425
大小:2.29 MB
页数:68页
时间:2018-07-09
《基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、本科毕业论文基于JAVA开源工具KETTLE的ETL研究和实现ResearchandRealizationofETLbasedonJavaOpenSourceToolKETTLE姓名:学号:学 院:软件学院系:软件工程专业:软件工程年级:校外指导教师:校内指导教师:年月摘要ETL(Extract-Transform-Load)用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL作为BI/DW(BusinessIntelligence/DataWarehousing)的核心和灵魂,能够按照统一
2、的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。目前ETL过程中经常采用三种方法:第一种是借助专业的ETL工具实现;第二种是SQL编程方式实现;第三种是ETL工具和SQL相结合实现。前两种方法各有优缺点,第一种可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低难度,但缺少灵活性。第二种的优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种综合了前两种的优点,可以极大地提高ETL的开发速度和效率。目前在市面上存在着很多种ETL工具,其中不乏开源的精品,KETTLE就是一款以J
3、AVA为开发语言的ETL开源工具。本文以金融银行的数据仓库为研究背景,分析其ETL架构,继而以KETTLE为工具、以Teradata为数据库,借助ETL工具的方便性和SQL语句的灵活性来构造一个数据仓库的ETL流程。主要内容如下:(1)分析了当前数据仓库的研究现状、数据仓库的概念和ETL本质及ETL在数据仓库过程中的作用,阐述了ETL的体系结构、元数据和数据仓库的关系。(2)通过金融银行数据仓库的ETL架构实例,阐述了ETL流程中的各个过程,分析其实现方法及出现的问题,并在此基础上提出ETL的体系结构。(3)研究了Java开源ETL工具KETTLE的源码,
4、编写插件来增加KETTLE的功能,使其配合Teradata数据库的使用。(4)最后运用工具与SQL语句相结合的方式,尝试以元数据为驱动,利用Teradata数据库和KETTLE工具来完整的实现一个ETL的架构。本文研究和实现的ETL架构,适合于多种不同的数据源,经测试可以方便、快捷的实现数据仓库的ETL过程。关键词:数据仓库;ETL;KETTLEAbstractETLstandsforextract,transformandload,theprocessesthatenablecompaniestomovedatafrommultiplesources,r
5、eformatandcleanseit,andloaditintoanotherdatabase,adatamartoradatawarehouseforanalysis,oronanotheroperationalsystemtosupportabusinessprocess.ETLfortheheartandsoulofBI/DW(BusinessIntelligence),canbeintegratedinaccordancewithuniformrulesandtoincreasethevalueofdata,isanimportantstepin
6、datawarehouse.TherearethreecommonmethodsofETLprocessfrequentlyused:thefirstoneisusingtheprofessionalETLtools,thesecondoneisusingSQLprogramming.AndthethirdoneisthecombinationofSQLprogrammingandETLtools.Thefirsttwomethodshavebothadvantagesanddisadvantages:withETLtools,wecansetupETLp
7、rojectquickly,shieldthecomplexityoftheencodingtask,increasethespeedandreducethedifficulty,butlackflexibility.TheSQLprogramminghasadvantagesinflexibilityandimprovestheefficiencyofETL.However,itincreasesthecomplexityandrequiresrelativelyhighcodingskill.Thethirdonecombinestheadvantag
8、esofthefirsttwo,whichgreatlyimpro
此文档下载收益归作者所有