总公司kpi项目etl认知培训课件

总公司kpi项目etl认知培训课件

ID:33763867

大小:1.05 MB

页数:58页

时间:2018-05-25

总公司kpi项目etl认知培训课件_第1页
总公司kpi项目etl认知培训课件_第2页
总公司kpi项目etl认知培训课件_第3页
总公司kpi项目etl认知培训课件_第4页
总公司kpi项目etl认知培训课件_第5页
资源描述:

《总公司kpi项目etl认知培训课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、ETL-ExtractTransformLoad宜昌艾福斯软件公司主讲:张超内容ETL基础ETL概述ETL体系结构ETL实现步骤OWB基础概述基本概念/基本元素OWB功能简介源目标对象定义ETL设计数据质量管理ETL部署和执行元数据管理案例FollowMe总结ETL概述ETL概述ETL(Extract-Transform-Load的缩写,即数据抽取、转换、装载的过程)是BI/DW(BusinessIntelligence)的核心和灵魂,能够按照统一的规则集成并提高数据的价值是负责完成数据从数据源向目标数据仓库转化的过程是实施数据仓库的重要步骤。

2、ETL体系结构ETL体系结构Designmanager提供一个图形化的映射环境,让开发者定义从源到目标的映射关系、转换、处理流程。设计过程的各对象的逻辑定义存储在一个元数据资料库中。Metadatamanagement提供一个关于ETL设计和运行处理等相关定义、管理信息的元数据资料库。ETL引擎在运行时和其它应用都可参考此资料库中的元数据。Extract通过接口提取源数据,例如ODBC、专用数据库接口和平面文件提取器,并参照元数据来决定数据的提取及其提取方式。ETL体系结构Transform开发者将提取的数据,按照业务需要转换为目标数据结构,

3、并实现汇总。Load加载经转换和汇总的数据到目标数据仓库中,可实现SQL或批量加载。Transportservices利用网络协议或文件协议,在源和目标系统之间移动数据,利用内存在ETL处理的各组件中移动数据。Administrationandoperation可让管理员基于事件和时间进行调度、运行、监测ETL作业、管理错误信息、从失败中恢复和调节从源系统的输出。ETL基本步骤ETL基本步骤ODS区的数据采集数据转换、清洗数据加载汇总层、CUBE加载ETL基本步骤ETL基本步骤第一步、ODS(OperationalDataStore-操作型数据

4、存储)区的数据采集主要作用:为了尽量减少对业务系统的影响。表结构可以不必和DW一致。根据具体业务需求和数据量情况,将数据源的数据放入ODS有各种不同的方法,比如Oracle的数据库链路,表复制,SQL*LOADER,Teradata的Fastload,Sysbase的BCP等等。讨论比较项目DW数据仓库ODSDB应用系统建设目的决策支持实时监控业务操作服务对象企业管理层业务管理层生产层存储周期长期短期即时处理频率非实时准实时实时主要功能分析功能事务处理,短时分析事务处理技术实现OLAPOLAP、OLTPOLTP功能结构集中相对集中分散数据类型明

5、细数据,汇总数据明细数据明细数据数据容量非常大小小ETL基本步骤需要解决的问题数据的时间差异性问题数据的平台多样性问题数据的不稳定性问题数据的依赖性问题ETL基本步骤第二步、数据转换和清洗将ODS中的数据,按照数据仓库中数据存储结构进行合理的转换,转换步骤一般还要包含数据清洗的过程。数据清洗主要是针对源数据库中出现二义性、重复、不完整、违反业务或逻辑规则等问题的数据数据进行统一的处理,一般包括如:NULL值处理,日期格式转换,数据类型转换等等。在清洗之前需要进行数据质量分析,以找出存在问题的数据,否则数据清洗将无从谈起。数据装载是通过装载工具或

6、自行编写的SQL程序将抽取、转换后的结果数据加载到目标数据库中。ETL基本步骤数据质量问题ETL基本步骤数据仓库中数据质量要求,包括格式、完整性要求。业务描述统一,对数据模型的不同版本融合、映射为唯一版本。信息描述规范、完整。ETL基本步骤主要数据质量问题的清洗策略主要问题表现形式产生原因清洗策略讨论主要数据质量问题的清洗策略数据完整性问题超出字典表范围数据一致性问题录入,同步的问题ETL基本步骤第三步、数据加载将转换和清洗完的数据按照数据仓库的结构进行数据加载。ETL基本步骤针对数据现状,初始导入需要考虑的问题如何解决时间差异性?如何解决平台

7、差异性?如何适应数据的不稳定性?如何解决数据依赖性?ETL基本步骤数据刷新的策略要根据业务需求和应用系统的承受能力和数据情况决定。主要需要考虑的一些问题:如何解决时间差异性?如何解决平台差异性?如何适应数据的不稳定性?如何解决数据依赖性?如何减少对业务系统的影响?ETL基本步骤不同的刷新任务类型,对业务系统的影响不同,刷新任务有以下种归类特性:刷新频率刷新方式数据加工方式并可针对各种异常情况做处理:回滚,重新装载,断点重新装载等等,还可在任务完成后(或失败后)将日志以Email方式发给数据仓库管理人员。ETL基本步骤第四步、汇总层和CUBE加载

8、ODS加载进入数据仓库的数据只是底层详细层数据,还需按定义的汇总规则进行汇总,生成数据集市用的汇总表或CUBE。ETL流程是指完成每个维表数据及事实表

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。