datastage入门教程

datastage入门教程

ID:40148490

大小:483.19 KB

页数:17页

时间:2019-07-23

datastage入门教程_第1页
datastage入门教程_第2页
datastage入门教程_第3页
datastage入门教程_第4页
datastage入门教程_第5页
资源描述:

《datastage入门教程》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、简介DataStage使用了Client-Server架构,服务器端存储所有的项目和元数据,客户端DataStageDesigner为整个ETL过程提供了一个图形化的开发环境,用所见即所得的方式设计数据的抽取清洗转换整合和加载的过程。Datastage的可运行单元是DatastageJob,用户在Designer中对DatastageJob的进行设计和开发。Datastage中的Job分为ServerJob,ParallelJob和MainframeJob,其中MainframeJob专供大型机上用,常用到的Job为ServerJob和ParallelJob。本文将介绍如何使用Se

2、rverJob和ParallelJob进行ETL开发。ServerJob一个Job就是一个Datastage的可运行单元。ServerJob是最简单常用的Job类型,它使用拖拽的方式将基本的设计单元-Stage拖拽到工作区中,并通过连线的方式代表数据的流向。通过ServerJob,可以实现以下功能。1.定义数据如何抽取2.定义数据流程3.定义数据的集合4.定义数据的转换5.定义数据的约束条件6.定义数据的聚载7.定义数据的写入ParallelJobServerJob简单而强大,适合快速开发ETL流程。ParallelJob与ServerJob的不同点在于其提供了并行机制,在支持多节

3、点的情况下可以迅速提高数据处理效率。ParallelJob中包含更多的Stage并用于不同的需求,每种Stage使用上的限制也往往大于ServerJob。SequenceJobSequenceJob用于Job之间的协同控制,使用图形化的方式来将多个Job汇集在一起,并指定了Job之间的执行顺序,逻辑关系和出错处理等。数据源的连接DataStage能够直接连接非常多的数据源,应用范围非常大,可连接的数据源包括:·文本文件·XML文件·企业应用程序,比如SAP、PeopleSoft、Siebel、OracleApplication·几乎所有的数据库系统,比如DB2、Oracle、SQL

4、Server、SybaseASE/IQ、Teradata、Informix以及可通过ODBC连接的数据库等·WebServices·SAS、WebSphereMQServerJobServerJob中的Stage综述Stage是构成DatastageJob的基本元素,在ServerJob中,Stage可分为以下五种:1.General2.Database3.File4.Processing5.RealTime本节中将介绍如何使用Datastage开发一个ServerJob。如图1所示:图1.ServerJob点击查看大图SequentialFileStageSequentialFi

5、leStage可用来从一个Sequential文件中获取源数据或将数据加载到一个Sequential文件中。在使用SequentialFileStage时需要指定文件的路径和名称,文件的格式,列的定义和文件写入的类型(覆盖或追加)。图2.SequentialFile属性框点击查看大图图3.SequentialFile列定义点击查看大图上图是本节例子中使用到的SequenceFile。在Input页中,FileName参数代表文件的实际路径,如果文件不存在将会被自动建立。UpdateAction中选择Overwriteexistingfile表示此文件在加载数据之前将被清空;在For

6、mat页中,定义文件的格式,例如分隔符,NULL值,首行是否为列定义等;在Column页中,需要输入文件的列定义。 HashFileStageHashFile以主键将记录分成一个或多个部分的文件,在Datastage中通常被用做参考查找。在进行参考查找的时候,HashFile文件会被加载到内存中,因此具有较高的查找效率。和SequenceFile类似,使用HashFile时需要输入文件的实际地址,通过参数设置写入时的选项,并提供数据的列定义。需要注意的是,HashFile需要指定主键,如果未指定,第一列被默认为主键。进行参数查找时,使用主键值在HashFile中搜索,如果找到则返回

7、该数据,如果未找到则返回NULL值。图4.HashFile属性框点击查看大图TransformerStageTransformerStage是一个重要的,功能强大的Stage。它负责ETL过程中的数据转换操作。在TransformerStage中可以指定数据的来源和目的地,匹配对应输入字段和输出字段,并指定转换规则和约束条件。图5.TransformerStage列映射点击查看大图TransformerStage中分为5个区域:左上方区域,是用表格形式描述的输入数据信

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。