企业数据仓库概要设计说明书-etl概要设计分册

企业数据仓库概要设计说明书-etl概要设计分册

ID:1742643

大小:1.17 MB

页数:20页

时间:2017-11-13

企业数据仓库概要设计说明书-etl概要设计分册_第1页
企业数据仓库概要设计说明书-etl概要设计分册_第2页
企业数据仓库概要设计说明书-etl概要设计分册_第3页
企业数据仓库概要设计说明书-etl概要设计分册_第4页
企业数据仓库概要设计说明书-etl概要设计分册_第5页
资源描述:

《企业数据仓库概要设计说明书-etl概要设计分册》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、XXX企业数据仓库设计说明书-ETL概要设计分册XXXX企业数据仓库概要设计说明书ETL概要设计分册(文档编码:OM-BIDW-C008)(版本01.00.000)未经许可,不得以任何形式抄袭XXXX版权所有,翻板必究OM数据仓库XXXX企业数据组2009年3月短彩技术部数据组XXX企业数据仓库设计说明书-ETL概要设计分册文档变更历史日期版本作者修改内容评审号变更控制号发布日期2009-04-0201.00.000黄浩建立初始版本2009-04-02短彩技术部数据组XXX企业数据仓库设计说明书-ETL概要设计分册目录1概述42设计原则和前提52.1整体部署52.2前提条

2、件62.3设计原则63整体框架73.1ETL系统架构图73.2ETL系统功能模块描述74数据抽取模块94.1假设与约定94.2模块功能图94.3各子模块功能及处理流程115数据加载模块115.1假设与约定115.2数据加载模块图115.3数据加载功能模块描述126作业调度模块136.1模块概述136.2假设与约定136.3作业调度流程136.4ETL作业种类及调度实现方法147监控管理模块157.1监控管理模块图15ETL监控内容16附录1控制表及控制文件设计16附录2:文件目录及编码说明19短彩技术部数据组XXX企业数据仓库设计说明书-ETL概要设计分册1概述ETL是数

3、据仓库系统开发中至关重要的一个过程,它涉及到对源数据的抽取、整合及各种转换,并最终形成面向用户的分析数据。由于数据仓库系统的数据源来自于多个分散的业务系统,对不同业务系统的数据整合及清洗转换将是一个复杂的过程,ETL过程决定了数据仓库系统获取数据的准确性。另外由于ETL包括数据抽取、数据清洗、数据转换及数据加载等数据处理过程,这些处理过程分散在不同的系统平台及开发工具上,对这些作业过程的统一调度将是一个重要的问题,作业调度涉及到系统的稳定性。短彩技术部数据组XXX企业数据仓库设计说明书-ETL概要设计分册1设计原则和前提1.1整体部署数据仓库ETL整体部署图²网关通道数据

4、库服务器是数据仓库的外围数据库系统,数据仓库中的绝大部分数据都将来自网关通道数据库服务器²基于目前短彩部自身情况的考虑,在数据源服务器和数据仓库服务器之间增加一台FTP文件服务器,其功能有二:u接口文件服务器,所有被接入DW的数据文件必须通过该服务器中转u数据备份,来自网关的数据文件将长期保留在该服务器上,作为文件备份短彩技术部数据组XXX企业数据仓库设计说明书-ETL概要设计分册1.1前提条件ETL概要设计将基于下面的前提条件²ETL逻辑:XXXX企业的数据虽然分布在不同的通道,但是各通道数据的共性度非常高,因此ETL中不存在逻辑复杂的转换(Transformation

5、)及数据质量管理等流程,整个ETL只需要实现抽取(Extraction)和加载(Loading)两个功能即可²ETL工具:自主开发,具体开发语言待定?;²作业调度工具:自主开发,具体开发语言待定?。1.2设计原则²ETL应该是基于元数据库中定义好的处理规则;并且应由可复用的过程或相关组件来实现;²用户或客户端应用程序不应该直接执行数据获取程序,数据仓库层所有的数据更新应该由数据获取过程自动控制;²通过良好的设计和相关处理过程的协调使得系统的CPU处理时间最少;要充分利用系统和软件的并行处理性能;²ETL过程尽可能分解为独立的几个子处理过程以便于作业管理和调度;²在ETL设

6、计时,需要详细计算并考虑ETL的处理性能,时间窗口及错误处理控制。并详细考虑各个ETL任务在各台物理主机上的分布。²需要提供一个监控统计模块对ETL的整个过程进行有效的监控和统计,提供GUI界面对ETL各个任务的处理情况进行统计和监控,例如每个ETL任务的状态、处理记录的条数、处理某个任务所用的时间、出错的情况等。短彩技术部数据组XXX企业数据仓库设计说明书-ETL概要设计分册1整体框架本章从宏观体系结构的高度,概要叙述ETL系统的基本架构和设计思想,着重于描述架构的特点、系统主要组成、ETL各个部分的基本功能和它们之间的关系以及方案选择的出发点。1.1ETL系统架构图E

7、TL负责对业务系统数据及其他外部源数据进行数据抽取,并存放在数据仓库系统中的STAGE数据库中。ETL过程包括数据抽取和数据加载等几个逻辑上相对独立的数据处理过程。同时由于在ETL的处理过程中需要对ETL的错误处理以及作业调度等,ETL系统逻辑架构图如下图所示:1.2ETL系统功能模块描述从上图可以看到ETL系统包括数据抽取、数据加载、错误处理、作业调度、监控管理等几个功能模块,各功能模块的具体情况如下:短彩技术部数据组XXX企业数据仓库设计说明书-ETL概要设计分册功能模块功能描述物理分布实现工具或方法数据抽取该模块获取外部

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。