ECIF_ETL总体设计说明书V01 20101209.doc

ECIF_ETL总体设计说明书V01 20101209.doc

ID:31830631

大小:293.00 KB

页数:23页

时间:2019-01-20

ECIF_ETL总体设计说明书V01 20101209.doc_第1页
ECIF_ETL总体设计说明书V01 20101209.doc_第2页
ECIF_ETL总体设计说明书V01 20101209.doc_第3页
ECIF_ETL总体设计说明书V01 20101209.doc_第4页
ECIF_ETL总体设计说明书V01 20101209.doc_第5页
资源描述:

《ECIF_ETL总体设计说明书V01 20101209.doc》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、中国大地财产保险股份有限公司企业级客户信息管理平台项目(ECIF)ETL总体设计说明书本文件属保密资料,未经CCIC书面许可,不得翻印或外传文档修订记录表版本号作者操作日期说明本文件属保密资料,未经CCIC书面许可,不得翻印或外传目录第1章引言41.1编写目的41.2预期读者41.3定义41.4参考资料4第2章ETL设计目标和原则52.1系统目标52.2数据目标52.3功能目标52.4设计原则5第3章开发工具选择63.1开发工具比较63.1.1ETLPlus63.1.2存储过程63.1.3UnixShell73.2开发工具选择结论7第4章ETL开发流程设计84.1数据分析84.2开

2、发流程84.3测试流程104.4上线流程11第5章ETL总体设计125.1ETL总体逻辑架构125.2ETL关键任务设计135.3ETL调度控制设计155.3.1实现目标165.3.2触发动作16本文件属保密资料,未经CCIC书面许可,不得翻印或外传5.3.3检查运行环境165.3.4执行作业175.3.5调度配置175.3.6日志记录185.3.7系统参数185.4ETL备份&恢复设计195.4.1程序备份195.4.2数据文件备份195.4.3日志文件备份195.5ETL测试设计195.5.1ETL功能测试195.5.2数据准确性测试205.5.3性能测试20第6章ETL开发规

3、范216.1ETL程序开发规范216.2目录及权限定义规范216.3文件格式定义规范226.3.1日志文件格式定义规范226.3.2源数据文件格式定义规范22本文件属保密资料,未经CCIC书面许可,不得翻印或外传第1章引言1.1编写目的本文档是为明确中国大地保险ECIF系统的ETL架构设计而编制的,为中国大地保险ECIF项目的ETL系统开发后续工作提供指南。ETL开发小组的将以本设计文档为基础,进行相应的功能概要设计和详细设计。1.2预期读者本文档的预期读者为用户代表、数据库设计人员、概要设计和详细设计人员、开发人员、测试人员和项目相关手册编写人员。1.3定义ECIF:企业级客户信

4、息管理(EnterpriseCustomerInformationFacility)。ETL:Extraction(抽取)、Transformation(转换)、Load(加载)。Reject文件:ETLPlus处理过程非法数据的输出文件;ETLPlusJOB:ETLPlus开发的JOB。1.4参考资料《大地保险数据质量评估报告》本文件属保密资料,未经CCIC书面许可,不得翻印或外传第1章ETL设计目标和原则1.1系统目标建设一个实现ECIF项目的转换、加载和调度全过程的ETL平台。1.2数据目标按照模型的要求完成从源表到ECIF系统目标表的转换处理:包含完整的获取系统需要的源表和

5、字段,对数据进行清洗和加载,完成个人/企业客户的归并,从客户出发完成各类指标的分析,形成最终的ECIF模型的客户数据,并保证数据的正确性。1.3功能目标n数据加载:将源系统提供的数据文件经过清洗后加载到ECIF系统的缓冲区中,供后续的转换工作使用;nETL调度:ETL调度需要完成整个系统的依赖关系,转换过程无需人工干预;n错误和异常处理:提供ETL系统的错误及异常处理机制,增强系统的可靠性;n提取公共模块:以提取公共模块的方式提高ETL作业的复用性,降低ETL代码的维护难度;1.4设计原则提供ETL各模块的结构详细定义、实现详细逻辑、步骤等。n考虑关键路径处理效率的最优n考虑JOB

6、的拆分整合关系n考虑数据的重复利用n考虑文件落地策略n考虑JOB间依赖的适中本文件属保密资料,未经CCIC书面许可,不得翻印或外传第1章开发工具选择1.1开发工具比较1.1.1ETLPlus(1)优点:n快速的ETL开发工具。n可管理性强、可维护性强。n支持并行运行(包括:Job内部各Stage之间的并行;Stage在各节点的并行),未来实现网格技术后移植性强。(2)缺点:n除ETL外,要实现其它功能局限性非常强。比如:不支持循环。n图形化组件拖拽/设置方式,难以自定义过程。n若Job复杂,难以阅读,不利于扩展与维护。n开发过程不便于调试与纠错。n与底层操作系统的交互性方面较差。比

7、如:调用OS的可执行程序只能通过ExecuteCommand组件进行封装调用,但是除了返回码外其它参数的传递较难实现。(3)适用范围:n单表(或多表的简单整合)的简单加工类需求,尤其是ETL方面。1.1.2存储过程(1)优点:n最全面深入地利用数据库核心技术。n过程处理/控制能力强。本文件属保密资料,未经CCIC书面许可,不得翻印或外传n开发过程中调试与纠错方便。n支持事务回滚。(2)缺点:n并行处理能力差,容易造成数据库服务器处理压力大n需要自行编写代码实现。(3)

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。