欢迎来到天天文库
浏览记录
ID:19325570
大小:24.66 KB
页数:14页
时间:2018-10-01
《etl流程,数据流图及etl过程解决方案.ppt43》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、etl流程,数据流图及etl过程解决方案.ppt43 篇一:ETL设计过程 本文将介绍设计和实现仓库ETL过程,并了解仓库的性能和安全问题。 简介 数据集成是数据仓库中的关键概念。ETL(数据的提取、转换和加载)过程的设计和实现是数据仓库解决方案中极其重要的一部分。ETL过程用于从多个源提取业务数据,清理数据,然后集成这些数据,并将它们装入数据仓库数据库中,为数据分析做好准备。ETL过程设计 尽管实际的ETL设计和实现在很大程度上取决于为数据仓库项目选择的ETL工具,但是高级的系统化ETL设计将有助于构建
2、高效灵活的ETL过程。 在深入研究数据仓库ETL过程的设计之前,请记住ETL的经验法则:―ETL过程不应修改数据,而应该优化数据。‖如果您发现需要对业务数据进行修改,但不确定这些修改是否会更改数据本身的含义,那么请在开始ETL过程之前咨询您的客户。调制的ETL过程设计 由于其过程化特性以及进行数百或数千个操作的可能性,所以以精确方式设计ETL过程,从而使它们变得高效、可伸缩并且可维护就极为重要。ETL数据转换操作大致可以分为6个组或模块:数据的提取、验证、清理、集成、聚集和装入。要安排好这些组,按照使这一过程获
3、得最大简化、具有最佳性能和易于修改的逻辑次序来执行操作。下图中展示了执行的次序。图1.ETL数据转换过程的功能模块设计 在项目的业务需求和数据分析阶段,我们创建了数据映射信息。有许多中记录数据映射的方式;ETL数据映射表是指导ETL过程设计的最佳方式。您还可以将该表用作与业务客户就数据映射和ETL过程问题进行交流的方式。ETL数据映射表有不同的级别,如实体级别和属性级别。每个级别中都具有不同级别的详细数据映射信息。下表是一个实体级别的ETL数据映射表的简化例子。该表中的每个―X‖表示到操作细节或较低级数据映射文档
4、的链接。表1.ETL实体映射表 源验证清理转换集成聚集目标 账户客户XX?XX客户 信贷客户XXX 借贷客户X?X 支票账户XX?XX账户 储蓄账户X?X 信贷账户X?X 借贷账户XX?在DB2数据仓库中实现ETL过程 DB2?UniversalDatabase?DataWarehouseEditions为数据仓库功能提供了改进的性能和可用性。DB2DataWarehouseCenter(DWC)是一个可视化的ETL设计和实现工具,它是DB2UDB中的组成部分。这一节将查看如何使用DB2UDB(V
5、ersion)DataWarehouseCenter设计和实现仓库ETL过程。创建仓库控制数据库 仓库控制数据库包含存储数据仓库中心(DataWarehouseCenter)元数据所必需的控制表。在DataWarehouseCenter的Version或更新的版本中,仓库控制数据库必须是UTF-8(Unicode TransformationFormat或Unicode)的数据库。这一需求为DataWarehouseCenter提供了扩展的语言支持。如果尝试使用非Unicode格式的数据库登录DataWareh
6、ouseCenter,那么您会收到无法登录的错误消息。您可以使用WarehouseControlDatabaseManagement工具,将元数据从指定的数据库迁移到新的Unicode数据库中。 下面是创建和启动新的仓库控制数据库的步骤: 确保启动了DB2仓库(Warehouse)服务器和相关的服务。在仓库控制数据库的管理窗口中,填入控制数据库名、模式名(IWH)、用户ID和密码,并创建该仓库控制数据库。如果在以前版本的DB2DWE上已经有一个仓库,那么还可以使用此过程将仓库控制数据库迁移到当前版本中。 通过
7、新创建的或迁移的控制数据库登录到DB2DataWarehouseCenter,如图2所示。确保使用与步骤1相同的用户ID和密码。如果仓库控制数据库是一个远程数据库,则必须对该节点和控制数据库进行编目。图2.登录DB2DWE仓库中心 注意:DB2DataWarehouseCenter的登录窗口将允许您在多个仓库控制数据库中进行切换。当有许多项目或开发人员在同一DB2数据仓库(DataWarehouse)服务器上工作时,此功能极其有用。定义代理站点 仓库代理(agent)管理数据源和目标仓库之间的数据流。仓库代理可
8、用于AIX?、Linux、iSeries?、z/OS?、Windows?NT、WindowsXX和WindowsXP操作系统,以及Solaris?操作环境(OperatingEnvironment)。 这些代理使用OpenDatabaseConnectivity(ODBC)驱动程序或DB2CLI与不同的数据库进行通信。只需要几个代理就可以处理源仓库和目标仓
此文档下载收益归作者所有