ETL设计方案

ETL设计方案

ID:47428507

大小:105.11 KB

页数:6页

时间:2020-01-10

ETL设计方案_第页
预览图正在加载中,预计需要20秒,请耐心等待
资源描述:

《ETL设计方案》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、ETL设计方案1ETL调度系统设计(ETLSchedule)1.1调度系统的功能1)可配置JOB任务的前后依赖关系,确保顺利调度。2)可配置JOB任务优先级,指定调度模块的先后顺序。3)可配置JOB任务调度频率,如日调度/月调度/年调度等。4)通过高配置性和可视化界面,提高开发人员和维护人员工作效率。1.2调度系统功能图示1.3调度系统流程说明1)手工配置调度配置表:首先JOB任务上线后,由开发人员将新开发的JOB任务配置到调度配置表。2)每天初始化调度状态表:每天调度系统在【调度配置表】中将当天需要调度的任务列表新增到【调度状态表】中,新增任务的状态均

2、为“未执行”。3)轮询调度调度状态表任务:调度系统从指定时间开始(如凌晨0:30),依照【调度状态表】顺序,依次执行每一个JOB任务,其中判断任务的前提条件是否符合。4)反馈调度状态:根据日志表任务执行情况,向【调度状态表】/【调度日志流水表】写JOB任务调度状态。如当任务执行成功,将该任务记录从【调度状态表】中删除,并在【调度日志流水表】中新增完成记录。当任务执行失败,则将任务记录在【调度状态表】中的标志设为失败。1.4调度平台功能设计1)JOB任务当天状态(实用功能):显示各任务的执行状态(未执行/执行中/失败/成功),尤其发生异常时,为维护人员提供

3、友好界面,以便及时发现并解决。2)JOB调度系统负荷(实用功能):显示调度系统中的历史负荷,如并发数量,同时读写同一个表情况等。3)JOB任务配置功能(实用功能):在查询后,可实现(增删改)功能。4)JOB任务树状结构(实用功能):将所有JOB的前后置关系以树状结构显示出来。在【调度配置表】循环SQL查询并画到前台。5)JOB任务迷失功能(该功能在开发中期开始实用):在开发一段时间后,会产生一些没有前后依赖关系的JOB任务(可在【调度配置表】查询获得),或者长期未调度的JOB任务(可在【调度配置表】与【调度日志流水表】关联查询获得),该功能负责将其找出,

4、并取消在树状结构上表现。1.1调度维护1)调度系统参数维护,对调度系统JOB任务的参数设置和修改。2)调度系统运行情况的监控、处理、重跑、上报。3)梳理JOB任务前后置关系。1日志管理2.1日志系统的功能1)记录功能:记录调度过程日志,管理记录调度中的主要过程和异常信息,如调度开始、调度完成、数据库操作异常和读写文件异常的日志。2)管理功能:管理JOB执行信息的日志,提供该日志的查询、删除和执行状态重置功能。3)数据波动检查:提供详细事件日志,从日志中获取JOB任务处理数据量。2.2日志系统功能图示2.3日志流程说明:1)日志触发:每个JOB流程每一次执

5、行都会产生3条流水记录,分别插入到3个流水表【调度流水表】、【任务执行日志】、【任务详细日志】。2)输出任务详细日志:保存每次JOB任务的运行状态,数据从DS的日志中捕捉。其中需要包含任务执行中对多少条记录进行操作,多少条记录拒绝。1)输出任务执行日志:对【任务详细日志】进行简化,并关联【调度配置表】。从关联后得到JOB输入表协助调查是否存在数据质量问题。2)输出调度流水日志:从【任务详细日志】获取状态,为调度系统提供支持。2.1日志监控功能:流水日志监控:监控JOB任务的历史运行情况,如调度时间、处理记录数等。1ETL调度设计3.1ETL总体流程图3.

6、2ETL的功能类型及数据处理1)外部文档的装载:将各个部门的源文件预装载到ETL服务器。2)配置当天任务列表:自动启动ETL,从调度配置表中,获得当天需要调度的JOB任务列表,并插入到【调度状态表】中。3)数据质量检查:对预处理数据质量进行检查,如果数据异常则为装载失败,并返回失败标志给任务列表。4)消息通知:当数据或者任务发生异常时,有及时通知的消息机制。5)正式装载ODS表:将数据质量及格的表重命名为正式表名。6)执行JOB任务:调度JOB任务。3.1数据质量检查策略3.3.1数据质量检查主要检查几个方面:1)数据装载错位检查:错位对外部文件装载时,

7、因文件格式问题,造成字段数值错位,引起数据质量问题。2)装载0条记录的检查:当天传递数据是否为空记录。3)脏数据检查:装载数据与目标表字段类型不符的检查。4)数据不标准的检查:新装载的数据不在实际数据列表中。3.3.2数据质量检查方法:1)装载0条记录的检查:统计预装载表的行数,为0则告警;2)数据装载错位检查:预装载表比正式表多4个字段,数据文件装载后,后4字段不全为空则有外错行,倒数第5字段为空,则发生内错行。3)脏数据检查:需要检查的字段值进行统计计算,正态分布的置信度99%以外的记录为可疑脏数据。该功能在DATASTAGE有对应组件可用。4)数据

8、不标准的检查:通过枚举字典比较,找出不达标数据。3.3.33.2ETL调度策略采

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。