资源描述:
《元数据驱动ETL的研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、元数据驱动ETL的研究宿芳,寿永熙,苏依拉SUFang,SHOUYongxi,SUYila内蒙古工业大学信息工程学院,呼和浩特010051CollegeofInformationEngineering,InnerMongoliaUniversityofTechnology,Hohhot010051,ChinaSUFang,SHOUYongxi,SUYila.ResearchonmetadatadrivenETL.ComputerEngineeringandApplications,2012,48(6):114-11Abs
2、tract:Withthedevelopmentofdatawarehouse,ETL(Extract,TransformationandLoad)arcsoimportantstepsinprocessingdawhilebuildingadatawarehouse.AstableandreliableETLsystemisdependedontheoveralldesign.BaseonthetraditionalETL,thpaperismainlyaboutmetadatadrivenETL.UsingSQLen
3、gine,packageengineandrelatedalgorithmtosolvetheproblem,theaimtoimprovetheETLSystem'sstabilityandreliability,andenableuserstocontroltheprocessbymaintainingmetadata.Keywords:Extract,TransformationandLoad(ETL);datawarehouse;metadata;SQLengine;packageengine摘要:对原始数据的提
4、取、转换、加我(ETL)是数据仓库开发的重要步骤。一个稳定而可靠的ETL系统取决于它的总体设计,在原有ETL基础上,提出了元数据驱动ETL的思想,利用包引擎和SQL引擎以及相关算法,对传统ETL的方法进行改进,目的是提高ETL系统的稳定性和可靠性,使用户通过对元数据的维护来控制ETL的执行过程。关键词:抽取、转换和加载(ETL);数据仓库;元数据;SQL引擎;包引擎DOI:10.3778/j.issn.1002-8331.2012.06.034文章编号:1002-8331(2012)06-0114-05文献标识码:A中图
5、分类号:TP311.131引言数据仓库技术在现代商业智能(BusinessIntelligence)中应用越来越广泛。数据仓库不是一个产品或软件,而是一个用于进行分析和决策的应用环境。数据仓库的开发离不开ETL(Ex【rac【,TransformandLoad)过程,ETL也就是抽取、转换和加载。ETL是指在数据仓库环境中,从某个来源业务系统或文件中提取数据,然后对所提取的数据进行转换、清理、消除冗余,再对数据进行进一步的整合,最后将合格的数据加载到数据仓库或其他分析系统中的过程。然而,随着数据库和数据仓库技术的发展,传
6、统的ETL逐步显现出其弊端,于是就引出了一个新的概念——元数据。元数据是描述数据的数据(d“t“aboutdat
7、的不足的。2ETL过程2.1ETL概念数据源是开发数据仓库的基础,也是构建ETL的起点。数据源是数据的來源,它可以是用户日常操作的业务数据库,也可以是用户提供的日常文件或报表。ETL贯穿于构建数据仓库的整个过程,首先从数据源(文本文件.Excel文件、其他异构数据库系统等)中抽取出用户需要的原始数据,经过数据淸洗,除去噪声数据、空缺数据等然后按照预先定义好的数据仓库模型,将高质量的数据加勒到数据仓库中去。在不同的数据源中往往存在若噪声数据.空缺数据,同时也存在着多个数据源中数据不一致的现象(数据格式、数据4储类型、数据精
8、度等),这些不一致的数据会影响用户对数扌信息的使用,为了提高数据的质量,需要ETL过程能够对脏舟据进行处理。2.2ETL解决方案2.2.1传统的ETL传统的构建数据仓库时,基木上采用图1的框架來实戈ETL过程。业务数拥库I业务報拯斥2Excel平面文件数据抽取Q二数据数据加载=>数据仓库传统ETL解决方案图1传统ET