资源描述:
《《ETL方法介绍》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、中国人民保险公司保险数据模型及业务标准化–数据模型及业绩指标和风险测算分析–ETL方法介绍2004年4月15日内容ETL基本概念ETL过程讲解PICCETL总体架构PICCETL开发方法2中国人民保险公司保险数据模型及业务标准化
2、保密
3、2021/7/19ETL基本概念--主要目的将源系统数据经过抽取/转换过程,最终装载到目标系统将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据3中国人民保险公司保险数据模型及业务标准化
4、保密
5、2021/7/19ETL基本概念--术语解释ETLExtract
6、-Transform-Load的缩写,数据抽取(Extract)、转换(Transform)、装载(Load)的过程DWDataWarehousing,根据Bill.Inmon的定义,“数据仓库是面向主题的、集成的、稳定的、随时间变化的,主要用于决策支持的数据库系统”MetaData元数据,就是描述数据的数据,指在数据仓库建设过程中所产生的有关数据源定义、目标定义、转换规则等相关的关键数据4中国人民保险公司保险数据模型及业务标准化
7、保密
8、2021/7/19ETL基本概念--数据仓库中的位置5中国人民保险
9、公司保险数据模型及业务标准化
10、保密
11、2021/7/19ETL基本概念--数据质量正确性(Accuracy):数据是否正确体现在现实或可证实的来源完整性(Integrity):数据之间的参照完整性是否存在或一致一致性(Consistency):数据是否被一致的定义或理解完备性(Completeness):所有需要的数据是否都存在有效性(Validity):数据是否在企业定义的可接受的范围之内时效性(Timeliness):数据在需要的时间是否有效可获取性(Accessbility):数据是否易于获取、易于
12、理解和易于使用6中国人民保险公司保险数据模型及业务标准化
13、保密
14、2021/7/19ETL基本概念--数据质量原因业务系统不同时期数据模型不一致业务系统不同时期业务过程有变化各个源系统之间相关信息不一致遗留系统和新业务、管理系统数据集成不完备带来的不一致性源系统缺少输入验证过程,不能阻止非法格式的数据进入系统可以验证但不能改正数据,验证程序不能发现格式正确但内容不正确的错误源系统不受控制的更改,而这种更改不能及时的传播到受影响的系统数据由多个交叉的访问界面,难以统一管理数据质量问题缺少参照完整性检查低劣的
15、源系统设计数据转换错误,比如ETL过程错误或数据迁移过程的错误源系统与数据仓库系统的数据组织方式完全不同7中国人民保险公司保险数据模型及业务标准化
16、保密
17、2021/7/19ETL基本概念--数据转换空值处理规范化数据格式拆分数据验证数据合法性数据替换实现数据规则过滤数据排序数据类型统一转换......8中国人民保险公司保险数据模型及业务标准化
18、保密
19、2021/7/19ETL过程讲解--逻辑架构9中国人民保险公司保险数据模型及业务标准化
20、保密
21、2021/7/19ETL过程讲解--Extract设计原则为提
22、高ETL效率,数据在进入ETL系统后的EXF文件都将转换为FlatText文件格式从ETL程序设计的灵活性和整体结构的一致性考虑,尽量采用Pull的方式,减少对源系统的影响和对其他开发队伍的依赖,并减少网络压力由于BatchWindows的限制,如果日源数据量大于5GB则必须考虑采用Push的方式以提高传送速度,如,可以由源系统将数据转换为FlatText文件后,由ETL程序采用FTP的方式进行传送EXF的文件格式接近数据源的数据结构定义在Extract过程中过滤数据仓库不需要的数据记录和字段Push和
23、PullPush在源系统上根据定义的数据格式将每日增量数据生成数据文件,再通过FTP或文件拷贝的方式传送给ETL程序处理Pull由ETL程序通过DRDA或ODBC等数据库协议直接访问源数据库获取所需数据进行处理10中国人民保险公司保险数据模型及业务标准化
24、保密
25、2021/7/19ETL过程讲解--数据转换过程中产生的文件EXF(ExtractedFormat)由数据源Extract产生的文件,文件结构与Source相似,经过过滤,部分字段被忽略。CIF(CommonInterfaceFormat)CIF
26、是ETL经过C/S/S过程产生的中间数据文件。PLF(Pre-LoadFormat)经过数据转换,用于直接加载到数据仓库的文本文件,其数据结构与数据仓库中的表定义一致。11中国人民保险公司保险数据模型及业务标准化
27、保密
28、2021/7/19ETL过程讲解--数据转换过程中一般需要完成的操作数据检查与稽核数据类型统一转换赋缺省值数据排序数据拆分筛选不合格的数据并记录到Rejected文件中根据加载要求,CIF文件分为Load/Append和Sn