基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc

基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc

ID:11000425

大小:2.29 MB

页数:68页

时间:2018-07-09

基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc_第1页
基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc_第2页
基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc_第3页
基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc_第4页
基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc_第5页
资源描述:

《基于JAVA开源工具KETTLE的ETL研究和实现---毕业论文.doc》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、本科毕业论文基于JAVA开源工具KETTLE的ETL研究和实现ResearchandRealizationofETLbasedonJavaOpenSourceToolKETTLE姓名:学号:学  院:软件学院系:软件工程专业:软件工程年级:校外指导教师:校内指导教师:年月摘要ETL(Extract-Transform-Load)用来描述将数据从来源端经过萃取(extract)、转置(transform)、加载(load)至目的端的过程。ETL作为BI/DW(BusinessIntelligence/DataWarehousing)的核心和灵魂,能够按照统一

2、的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,是实施数据仓库的重要步骤。目前ETL过程中经常采用三种方法:第一种是借助专业的ETL工具实现;第二种是SQL编程方式实现;第三种是ETL工具和SQL相结合实现。前两种方法各有优缺点,第一种可以快速的建立起ETL工程,屏蔽复杂的编码任务,提高速度,降低难度,但缺少灵活性。第二种的优点是灵活,提高ETL运行效率,但是编码复杂,对技术要求比较高。第三种综合了前两种的优点,可以极大地提高ETL的开发速度和效率。目前在市面上存在着很多种ETL工具,其中不乏开源的精品,KETTLE就是一款以J

3、AVA为开发语言的ETL开源工具。本文以金融银行的数据仓库为研究背景,分析其ETL架构,继而以KETTLE为工具、以Teradata为数据库,借助ETL工具的方便性和SQL语句的灵活性来构造一个数据仓库的ETL流程。主要内容如下:(1)分析了当前数据仓库的研究现状、数据仓库的概念和ETL本质及ETL在数据仓库过程中的作用,阐述了ETL的体系结构、元数据和数据仓库的关系。(2)通过金融银行数据仓库的ETL架构实例,阐述了ETL流程中的各个过程,分析其实现方法及出现的问题,并在此基础上提出ETL的体系结构。(3)研究了Java开源ETL工具KETTLE的源码,

4、编写插件来增加KETTLE的功能,使其配合Teradata数据库的使用。(4)最后运用工具与SQL语句相结合的方式,尝试以元数据为驱动,利用Teradata数据库和KETTLE工具来完整的实现一个ETL的架构。本文研究和实现的ETL架构,适合于多种不同的数据源,经测试可以方便、快捷的实现数据仓库的ETL过程。关键词:数据仓库;ETL;KETTLEAbstractETLstandsforextract,transformandload,theprocessesthatenablecompaniestomovedatafrommultiplesources,r

5、eformatandcleanseit,andloaditintoanotherdatabase,adatamartoradatawarehouseforanalysis,oronanotheroperationalsystemtosupportabusinessprocess.ETLfortheheartandsoulofBI/DW(BusinessIntelligence),canbeintegratedinaccordancewithuniformrulesandtoincreasethevalueofdata,isanimportantstepin

6、datawarehouse.TherearethreecommonmethodsofETLprocessfrequentlyused:thefirstoneisusingtheprofessionalETLtools,thesecondoneisusingSQLprogramming.AndthethirdoneisthecombinationofSQLprogrammingandETLtools.Thefirsttwomethodshavebothadvantagesanddisadvantages:withETLtools,wecansetupETLp

7、rojectquickly,shieldthecomplexityoftheencodingtask,increasethespeedandreducethedifficulty,butlackflexibility.TheSQLprogramminghasadvantagesinflexibilityandimprovestheefficiencyofETL.However,itincreasesthecomplexityandrequiresrelativelyhighcodingskill.Thethirdonecombinestheadvantag

8、esofthefirsttwo,whichgreatlyimpro

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。