etl流程,数据流图及etl过程解决方案.ppt43

etl流程,数据流图及etl过程解决方案.ppt43

ID:19325570

大小:24.66 KB

页数:14页

时间:2018-10-01

etl流程,数据流图及etl过程解决方案.ppt43_第1页
etl流程,数据流图及etl过程解决方案.ppt43_第2页
etl流程,数据流图及etl过程解决方案.ppt43_第3页
etl流程,数据流图及etl过程解决方案.ppt43_第4页
etl流程,数据流图及etl过程解决方案.ppt43_第5页
资源描述:

《etl流程,数据流图及etl过程解决方案.ppt43》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、etl流程,数据流图及etl过程解决方案.ppt43  篇一:ETL设计过程  本文将介绍设计和实现仓库ETL过程,并了解仓库的性能和安全问题。  简介  数据集成是数据仓库中的关键概念。ETL(数据的提取、转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分。ETL过程用于从多个源提取业务数据,清理数据,然后集成这些数据,并将它们装入数据仓库数据库中,为数据分析做好准备。ETL过程设计  尽管实际的ETL设计和实现在很大程度上取决于为数据仓库项目选择的ETL工具,但是高级的系统化ETL设计将有助于构建

2、高效灵活的ETL过程。  在深入研究数据仓库ETL过程的设计之前,请记住ETL的经验法则:―ETL过程不应修改数据,而应该优化数据。‖如果您发现需要对业务数据进行修改,但不确定这些修改是否会更改数据本身的含义,那么请在开始ETL过程之前咨询您的客户。调制的ETL过程设计  由于其过程化特性以及进行数百或数千个操作的可能性,所以以精确方式设计ETL过程,从而使它们变得高效、可伸缩并且可维护就极为重要。ETL数据转换操作大致可以分为6个组或模块:数据的提取、验证、清理、集成、聚集和装入。要安排好这些组,按照使这一过程获

3、得最大简化、具有最佳性能和易于修改的逻辑次序来执行操作。下图中展示了执行的次序。图1.ETL数据转换过程的功能模块设计  在项目的业务需求和数据分析阶段,我们创建了数据映射信息。有许多中记录数据映射的方式;ETL数据映射表是指导ETL过程设计的最佳方式。您还可以将该表用作与业务客户就数据映射和ETL过程问题进行交流的方式。ETL数据映射表有不同的级别,如实体级别和属性级别。每个级别中都具有不同级别的详细数据映射信息。下表是一个实体级别的ETL数据映射表的简化例子。该表中的每个―X‖表示到操作细节或较低级数据映射文档

4、的链接。表1.ETL实体映射表  源验证清理转换集成聚集目标  账户客户XX?XX客户  信贷客户XXX  借贷客户X?X  支票账户XX?XX账户  储蓄账户X?X  信贷账户X?X  借贷账户XX?在DB2数据仓库中实现ETL过程  DB2?UniversalDatabase?DataWarehouseEditions为数据仓库功能提供了改进的性能和可用性。DB2DataWarehouseCenter(DWC)是一个可视化的ETL设计和实现工具,它是DB2UDB中的组成部分。这一节将查看如何使用DB2UDB(V

5、ersion)DataWarehouseCenter设计和实现仓库ETL过程。创建仓库控制数据库  仓库控制数据库包含存储数据仓库中心(DataWarehouseCenter)元数据所必需的控制表。在DataWarehouseCenter的Version或更新的版本中,仓库控制数据库必须是UTF-8(Unicode  TransformationFormat或Unicode)的数据库。这一需求为DataWarehouseCenter提供了扩展的语言支持。如果尝试使用非Unicode格式的数据库登录DataWareh

6、ouseCenter,那么您会收到无法登录的错误消息。您可以使用WarehouseControlDatabaseManagement工具,将元数据从指定的数据库迁移到新的Unicode数据库中。  下面是创建和启动新的仓库控制数据库的步骤:  确保启动了DB2仓库(Warehouse)服务器和相关的服务。在仓库控制数据库的管理窗口中,填入控制数据库名、模式名(IWH)、用户ID和密码,并创建该仓库控制数据库。如果在以前版本的DB2DWE上已经有一个仓库,那么还可以使用此过程将仓库控制数据库迁移到当前版本中。  通过

7、新创建的或迁移的控制数据库登录到DB2DataWarehouseCenter,如图2所示。确保使用与步骤1相同的用户ID和密码。如果仓库控制数据库是一个远程数据库,则必须对该节点和控制数据库进行编目。图2.登录DB2DWE仓库中心  注意:DB2DataWarehouseCenter的登录窗口将允许您在多个仓库控制数据库中进行切换。当有许多项目或开发人员在同一DB2数据仓库(DataWarehouse)服务器上工作时,此功能极其有用。定义代理站点  仓库代理(agent)管理数据源和目标仓库之间的数据流。仓库代理可

8、用于AIX?、Linux、iSeries?、z/OS?、Windows?NT、WindowsXX和WindowsXP操作系统,以及Solaris?操作环境(OperatingEnvironment)。  这些代理使用OpenDatabaseConnectivity(ODBC)驱动程序或DB2CLI与不同的数据库进行通信。只需要几个代理就可以处理源仓库和目标仓

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。