用+IBM+WebSphere+DataStage+进行数据整合:第+1+部分.doc

用+IBM+WebSphere+DataStage+进行数据整合:第+1+部分.doc

ID:53875867

大小:911.50 KB

页数:28页

时间:2020-04-10

用+IBM+WebSphere+DataStage+进行数据整合:第+1+部分.doc_第1页
用+IBM+WebSphere+DataStage+进行数据整合:第+1+部分.doc_第2页
用+IBM+WebSphere+DataStage+进行数据整合:第+1+部分.doc_第3页
用+IBM+WebSphere+DataStage+进行数据整合:第+1+部分.doc_第4页
用+IBM+WebSphere+DataStage+进行数据整合:第+1+部分.doc_第5页
资源描述:

《用+IBM+WebSphere+DataStage+进行数据整合:第+1+部分.doc》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、2006年2月23日数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的ETL过程。IBMWebSphereDataStage为整个ETL过程提供了一个图形化的开发环境。引言传统的数据整合方式需要大量的手工编码,而采用IBMWebSphereDataStage进行数据整合可以大大的减少手工编码的数量,而且更加容易维护。数据整合的核心内容是从数据源中抽取数据,然后对这些数据进行转化,最终加载的目标数据库或者数据仓库中去,这也就是我们通常所说的ETL过程。IBMWebSphereDataStage为整个ETL过程提

2、供了一个图形化的开发环境。本文将从以下几个方面来介绍IBMWebSphereDataStage:1.数据源连接能力2.完备的开发环境3.ETLJob的并行执行能力4.开发一个简单的ETLJob出色的数据源连接能力数据整合工具的数据源连接能力是非常重要的,这将直接决定它能够应用的范围。IBMWebSphereDataStage能够直接连接非常多的数据源,包括:1、文本文件2、XML文件3、企业应用程序,比如SAP、Siebel、Oracle以及PeopleSoft4、几乎所有的数据库系统,比如DB2、Oracle、SQLServer、Informix等5、Webservices6、W

3、ebSphereMQ正是因为这么好的连接能力,IBMWebSphereDataStage使用户能够专注于数据转换的逻辑而不用太担心数据的抽取和加载。完备的开发环境IBMWebSphereDataStage的开发环境是基于C/S模式的,通过DataStageClient连接到DataStageServer上进行开发。这里有一点需要注意,DataStageClient只能安装在Windows平台上面。而DataStageServer则支持多种平台,比如Windows、RedhatLinux、AIX、HP-UNIX。DataStageClient有四种客户端工具。分别是DataStage

4、Administrator、DataStageDesigner、DataStageManager、DataStageDirector。接下来首先介绍这几种客户端工具在DataStage架构中所处的位置以及它们如何协同工作来开发ETLJob的,接着再分别详细介绍每个工具的功能。图1描述了IBMWebSphereDataStage的整个系统架构。DataStage的客户端工具连接到DataStageServer上进行ETLJob的开发,DataStageServer再与后台的数据库连接起来进行数据处理。DataStage的客户端工具之间的是一个相互合作的关系。下面通过介绍ETLJob的

5、开发过程来介绍他们之间的这种关系。ETLJob开发流程1.用DataStageAdministrator新建一个项目;2.用DataStageDesigner连接到这个新建的项目上进行ETLJob的设计;3.用DataStageDirector对设计好的ETLJob设置运行的模式,比如多长时间运行一次ETLJob;4.用DataStageManager进行ETLJob的备份等。图1:IBMWebSphereDataStage架构图DataStageAdministratorDataStageAdministrator的主要功能有以下几个:1.设置客户端和服务器连接的最大时间。以管理

6、员的身份登陆DataStageAdministrator。你就会看到如下图所示的画面。在这里你可以设置客户端和服务器的最大连接时间,默认的最大连接时间是永不过期。最大连接时间的意思就是如果客户端和服务器的连接时间超过了最大连接时间,那么客户端和服务器之间的连接将被强行断开。2.添加和删除项目在Projects这个标签中,可以新建或者删除项目,以及设置已有项目的属性。这里有必要介绍一下项目的概念,要用DataStage进行ETL的开发,首先就要用DataStageAdministrator新建一个项目,然后在这个项目里面进行ETLJob的开发。3.License的管理可以在Licen

7、sing标签中更新License。DataStageDesignerDataStageDesigner是ETLJob开发的核心环境。值得注意的是,登陆DataStageDesigner的时候,不仅要指定DataStageServer的IP,而且要指定连接到这个DataStageServer上的哪个项目上面,上面已经提到DataStage的项目是由DataStageAdministrator来创建的。DataStageDesigner的主要功能可以概括为以下三个方面:1

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。