欢迎来到天天文库
浏览记录
ID:20682928
大小:125.00 KB
页数:5页
时间:2018-10-14
《etl数据增量抽取方案》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、ETL数据增量抽取方案一、ETL简介数据集成是把不同来源、格式和特点的数裾在逻辑上或物理上冇机地集中,从而提供全血的数据共享,是企业商务智能、数裾仓库系统的重要组成部分。ETL是企业数据集成的主要解决方案。随着信息化建设的发展,巨大的投资为公安行业建立了众多的信息系统,以帮助公安进行闪外部业务的处理和管理工作,但是随着信息系统的增加,各自孤立工作的信息系统将会造成人量的冗余数据和业务人员的重复劳动。数据集成足公安应川集成的重要环节,实现数据集成,可以使更多的人更充分地使用已有数据资源,减少资料收集、
2、数据采集等重复劳动和相应费用。伹是,在实施数据集成的过程屮,由于不同川户提供的数据可能來自不同的途径,其数裾内界、数裾格式和数裾质:W:T•差万别,有时共至会遇到数裾格式不能转换成数裾转换格式后丢失信息等棘手问题,严重阻碍了数椐在各部门和各应用系统中的流动与共享。因此,如何对数据进行有效的集成管理已成为增强公安战斗力的必然选择。ETL是实现数据集成的主要技术。ETL中三个字母分别代表的是Extract、Transform、Load,即抽取、转换、加载。(1)数裾抽取:从源数据源系统抽取目的数裾源系统
3、需要的数裾;(2)数据转换:将从源数据源获取的数裾按照业务需求,转挽成H的数裾源要求的形式,并对错误、不一致的数据进行清洗和加丁;(3)数据加载:将转换后的数据装载到目的数据源。ETL作为构建数据仓库的一个环节,负责将分布的、异构数据源中的数据如矢系数据、平而数裾文件等抽取到临时屮间层r;•进行清洗、转换、集成,最P加载到数据仓庠成数裾集市中,成为联机分析处理、数据挖掘的葙础。现在越来越多地将ETL应用于一般信息系统数据的迁移、交换和同步。一个简单的ETL体系结构如图1.1所示。时数扼團1.IETL
4、体系结构二、ETL抽取方案ETL过程中的主要环节就是数据抽取、数据转换和加工、数据装载。为了实现这些功能,HL工具会进行一些功能上的扩充,例如工作流、调度引幣、规则引幣、脚本支持、统计信息等2.1数据抽取数据抽取足从数据源屮抽取数据的过程。实际应川屮,数据源较多采川的足关系数据厍。从数据库中抽取数据一般有以卜儿种方式:2.1.1全量抽取全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中抽取岀来,并转换成自己的ETL工具nf以识别的格式。全量抽取比较简单。2.1.2增量
5、抽取增量抽取由取A上次抽収以来数据庳中要抽取的表中新增或修改的数据。在ETL使用过程中,增虽抽取较全S抽取应用更广。如何捕获变化的数裾是增S抽取的关键。对捕获方法一般奋两点要求:准确性,能够将、Ik务系统屮的变化数据按-•定的频率准确地捕获到;性能,不能对业务系统造成人大的压力,影响现有业务。目前增M数椐抽取中常用的捕获变化数裾的方法冇:2.1.2.1触发器方式(又称快照式):在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据
6、写入一个临时表,抽取线程从临时表屮抽取数裾,临时表屮抽取过的数裾被标记或删除。优点:数据抽取的性能高,ETL加载规则简肀,速度快,不需要修改业务系统表结构,可以实现数据的递增加载。缺点:要求业务表建立触发器,对业务系统冇一定的影响。2.1.2.2吋间戳方式:它是一种基于快照比较的变化数裾捕获方式,在源表上增加一个吋间戳字段,系统屮更新修改表数据的吋候,同吋修改吋间戳字段的值。当进行数据抽取时,通过比较系统时间与吋间戳字段的值来决定抽収哪些数据。有的数裾库的时间戳支持自动更新,即表的艽它字段的数据发生
7、改变时,自动更新时间戳字段的值。奋的数据库不支持吋间戳的£)动更新,这就要求业务系统在更新业务数据吋,手工更新吋间戳字段。数据增畳抽取的原理优点:同触发器方式一样,吋间戳方式的性能也比较好,ETL系统设计淸晰,源数据抽収相对清楚简单,可以实现数据的递培加载。缺点:时间戳维护需要由业务系统完成,对业务系统也冇很大的倾入忡(加入额外的时问戳字段),特别足对不支持吋间戳的动更新的数据序,还要求鼎务系统进行额外的更新时间戳操作,工作a大,改动Ifti大,风险大;»外,无法捕获对时间戳以前数裾的delete和
8、update操作,在数据准确性上受到了一•定的限制。2.1.2.3全表删除插入方式每次ETL操作均删除0称表数据,由ETL全新加载数据。优点:ETL加载规则简单,速度快。缺点:对于维表加代理键不适应,当业务系统产生删除数裾操作时,综合数椐库将不会记录到所删除的历史数据,不可以实现数据的递增加载;同时对于H标表所逑立的关联关系,需要重新进行创建。2.1.2.4全表比对方式:全表比对的方式是采用MD5校验码,ETL工具事先为要抽取的表建立一个结构类似的MD5临吋表,该临吋
此文档下载收益归作者所有