试析基于元数据控制的etl系统应用研究

试析基于元数据控制的etl系统应用研究

ID:34817972

大小:1.83 MB

页数:66页

时间:2019-03-11

试析基于元数据控制的etl系统应用研究_第1页
试析基于元数据控制的etl系统应用研究_第2页
试析基于元数据控制的etl系统应用研究_第3页
试析基于元数据控制的etl系统应用研究_第4页
试析基于元数据控制的etl系统应用研究_第5页
资源描述:

《试析基于元数据控制的etl系统应用研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、西南大学硕士学位论文基于元数据控制的ETL系统应用研究姓名:罗兵申请学位级别:硕士专业:农业机械化工程指导教师:余建桥20060501西南大学硕士学位论文摘要随着信息技术的飞速发展,企业内部产生了越来越多的数据,但这些数据并没有产生应有的信息,这就出现了“数据爆炸,知识贫乏”的局面,数据仓库技术应运而生。数据仓库是一个面向主题的、集成的、不断更新的且随时间不断变化的数据集合,数据仓库是支持企业决策分析的核心技术。数据仓库的目的是为了建立一种体系化的数据存储环境.将分析决策所需的大量数据从传统的操作

2、环境中分离出来,使分散、不一致的操作数据转换为集成、统一的信息。然而,这个过程并非易事,这里所谓的传统的操作环境,是指企业在不同时期、在不同的背摄下开发出来的事务处理系统,这些业务系统的建立,也往往是面向不同的应用、由不同的开发商来完成的,其数据的存储结构、存储平台和系统平台具有很大的异构性。如何将这些异构的数据有效地集成到数据仓库中,是企业所面临的一个难题。企业需要一个全面的解决方案来解决数据的一致性和集成化问题,使我们能够从所有传统平台和环境中采集数据,并利用一个单一的解决方案对其进行高效的转

3、换,这个解决方案就是ETL。ETL(Extract、Transform、Load),数据抽取转换装载系统.一般把它简称为数据抽取系统。ETL包括三个方面:首先是抽取,将数据从各种原始的业务系统中提取出来,这是所有工作的前提;其次是转换,按照预先设计好的规则对抽取的数据进行转换,使得本来异构的数据格式能够统一起来;最后就是加载,将转换好的数据按计划增量或者全部导入到数据仓库中。可以说,ETL在传统的业务系统和数据仓库之间架立起了一座桥梁,确保新的数据能够源源不断地进入数据仓库。从整体的角度来看,ET

4、L的主要作用在于其屏蔽了复杂的业务逻辑。从而为各种基于数据仓库的分析和应用提供了统一的数据接口。虽然ETL的技术含量相对来讲不算高,但其涉及到大量的业务逻辑和异构环境,因此在一般的数据仓库项目中,ETL部分往往是牵扯精力最多的。随着银行业务的不断增多,系统的数据量也迅速膨胀,年业务数据量往往是以G为单位,一些比较大的银行,年业务数据量甚至达到了几十G,乃至上百G。如此海量的数据,对ETL的运行效率提出了新的要求。在传统的数据仓库建设中,往往强调数据仓库本身的建模和前端数据展示,而对ETL的设计和建

5、模关心不足,使ETL过程反复进行,甚至导致项目实施的失败。从国内外众多的实践得到普遍的共识是ETL设计与实施的工作量要占到整个数据仓库项目时间的60%一50%0ETL在数据仓库建设的重要地位越来越得到人们的关注。本文以某商业银行稽核系统为平台,在以下两个方面进行了深入研究:ETL架构设计和ETL任务模型设计。ETL架构设计属于ETL过程的物理结构,类似于工厂中的设备;而ETL任务模型设计属于ETL过程的逻辑结构,类似于工厂生产的调度、指挥等等。可以况,这两个方面构成了整个ETL过程的核心,两者之问

6、相互影响,相互渗透。下面对对本文在这两方面的研究做一个简单的介绍:(1)ETL架构设计在ETL架构设计方面,针对咀往银行业务系统的弊端。本文提出了提出了统一ETL平台的思想:将银行的各个业务数据全部由统一的ETL平台放入数据中心数据仓库,由一个数据库管理系统进行有效管理。同时在系统架构中加入了ODS(operationaldatastore)中间层,ETL模块首先将需要的数据由数据仓库传输到ODS,在ODS中对数据进行整理,然后将整理后的数据传输到稽核系统。(2)ETL任务模型设计ETL任务模型设

7、计方面,我们借鉴前人研究成果.本文提出了基于元数据控制的ETL系统,对ETL涉及操作进行分类建模,并为ETL:L立_程提供统一的元数据模型。为了加强该工具的可用性我们提供一个ETL任务模型编辑器和一个任务模型执行器,同时我们采用XTDL(x壮一likeTaskDescriptionLanguage)对ETL任务进行详细描述,它具有很好的可读性。系统完成了数据导入脚本的自动生产、任务的自动调度等工作。关键词:数据仓库元数据ETL稽核系统IIAbstractWiththerapidlydevelopm

8、entofinformationtechnology,theenterpriseinteriorhashadmoreandmoredatawhichhavenothadinformationtheyshouldhave.Therefore,theconlerof”dataexplode,knowledgeisdeficient”isappeared,andthedatawarehousetechnologyarisesatthismoment.Thedatawarehouse,wh

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。