kettle-基础教学

kettle-基础教学

ID:26255593

大小:1.21 MB

页数:20页

时间:2018-11-24

kettle-基础教学_第1页
kettle-基础教学_第2页
kettle-基础教学_第3页
kettle-基础教学_第4页
kettle-基础教学_第5页
资源描述:

《kettle-基础教学》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Kettle基础培训整理:小白、玻璃杯www.ukettle.orgAgendaKettle特点Kettle基础知识Kettle开发流程Kettle组件介绍案例介绍什么是KettleKettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,数据抽取高效稳定。Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。相关知识链接kettle的官网是http://community.pentaho.com/proj

2、ects/data-integration/目前常用的版本有5.3,5.25.1以及4.4,4.3等,不推荐再以前的版本,已经过于陈旧。开发、使用者如何选择版本呢?5.0以后的版本加入了不少新的控件,也对已有功能做了一定优化,根据群内统计来看目前使用4.4版的较多,5.1、5.2也有不少人用,5.3版根据某群友未经证实的经验还有一定问题。Kettle特点—kettle与Infomatica比较总结:kettle配置简单,抽取效率比较高,可以进行第三方修改,工具中的控件能够实现数据抽取的大部分需求。Ket

3、tleInformatica易用性有非常容易使用的GUI,出现问题可以到社区咨询。非常容易使用的GUI,但是要专门的训练。部署需要JVM。需要有Server效率需要手工调整,对Oracle和PostGre等数据源做了优化,同时也取决于转换任务的设计。最快的数据质量在GUI里有数据质量特性,可以手工写SQL语句、java脚本、正则表达式来完成数据清洗。专门有一个产品InformaticaDataQuality来保证数据质量监控有监控和日志工具有非常详细的监控和日志工具,实际应用中无需如此详细日志连接性非常

4、广泛的数据库,文件,另外可以通过插件扩展。各种数据源Kettle基础知识—kettle家族Kettle家族目前包括几个产品:Spoon—转换(transform)设计工具(GUI方式)Pan—转换(transform)执行器(命令行方式)Kitchen—工作(job)执行器(命令行方式)Carte—基于Jetty的,监听Http请求Encr—用户加密密码Kettle基础知识—kettle家族Spoon允许你通过图形界面来设计ETL转换过程(Transformation)和作业(Job)。例如,从一个SA

5、P系统抽取数据,并把这些数据存储到一个文件里。Pan允许批量运行由Spoon设计的ETL转换(例如使用时间调度器)。Pan是一个后台执行的程序,没有图形界面。Kitchen允许批量使用由Chef设计的任务(例如使用一个时间调度器)。KITCHEN是一个后台运行程序。Job和Transformation的差别:Transformation专注于数据的ETL,而Job的范围比较广,可以是Transformation,也可以是Mail、SQL、Shell、FTP等,甚至可以是另外一个Job。Kettle基础知

6、识—kettle的安装要运行此工具你必须安装Sun公司的JAVA运行环境1.4或者更高版本。绿色免安装,解压即可用。在不同的平台上运行Spoon所支持的脚本:Spoon.bat:在windows平台运行Spoon。Spoon.sh:在Linux、AppleOSX、Solaris平台运行Spoon。Kettle开发流程双击运行kettle目录下的spoon.bat,出现kettle欢迎界面。创建资料库(可省略)。创建数据库连接。创建转换。创建Jobs,进行流程化控制。Kettle控件介绍从关系型数据库中获

7、取源数据。用于数据持久化,将数据加载到关系型数据库中。从文本文件中获取源数据。将数据写入文本文件中,如果路径下无此文件,kettle会自动建立。Kettle控件介绍从MongoDB中获取源数据。用于数据持久化,将数据加载到MongoDB中。均用于从XML文件获取数据,只是解析方式不同,一般情况下均采用第二个控件。将数据写入XML文件中,如果路径下无此文件,kettle会自动建立。Kettle组件介绍删除指定表匹配条件的数据操作。更新指定表指定条件的数据数据网格,能够创建指定格式的网格数据。获取系统信息,

8、包括系统中的时间、日期、JOB转换信息能够读取json格式数据,输出成标准流字段获得一个随机值Kettle组件介绍增加常量,可以选择常量的数据类型增加序列,可指定步长计算器,可以做数据加减乘除和日期处理(有小bug)拼接数据,可指定分隔符替换字段中的指定字符字段选择,移除以及格式化Kettle组件介绍列转行行转列,先groupby再进行转换将一个字段的值赋值给另一个字段拆分字段成行,根据指定分隔符将一行数据拆分成多行拆分字段,将一个字段拆分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。