欢迎来到天天文库
浏览记录
ID:21104168
大小:79.00 KB
页数:7页
时间:2018-10-19
《基于cwm的商场数据仓库etl系统架构研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于CWM的商场数据仓库ETL系统架构研究[摘要]在完成商场数据仓库数据模型的设计与构建后数据的抽取、转换、加载成为建立数据仓库最重要的工作针对商场数据仓库对ETL技术的要求,在研究CTM工作机制的基础上,提出了基于CWM的商场数据仓库ETL系统架构的设计。通过分析CTM对ETL提供的技术支持,论证了系统架构的可行性和科学性。[关键词]商场数据仓库ETL元数据CVMETL系统架构商场数据仓库数据模型建立后,一个最重要的问题,是如何把已有的、各种异构的操作型的海量数据,从各种操作型数据库系统中抽取出来,排除数据中的数据缺陷,完成一系列转换,最后将数据加载到数据仓库中,成为面向主题的、集成
2、的、历史的、不易娈的、综合的数据。为管理者提供决策支持的有用信息。国内外有影响力的大型商场企业纷纷率先建立自己的数据仓库或数据集市。以满足决策的需要。一、ETL概述ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,它是指:将各种异构数据源中的数据抽取出来,并将不同数据源的数据进行转换和整合,得出一致性的数据,然后加载到数据仓库中。ETL工具,是数据仓库系统的重要组成部分;是影响数据仓库系统成败的关键。获取ETL工具有两个途径:利用现有商品化ETL工具,虽然能缩短系统的开发周期,但存在投资成本大,软件的针对性、通用性、兼容性差的问题。自行设计开发一个
3、标准通用的ETL工具,提高ETL的实用价值,降低项目实施的成本和风险,具有重要的意义。由于数据仓库和数据源系统在数据格式、数据模型等方面存在很大差异,客观上形成数据仓库ETL实现过程很大的难度。在ETL的工作过程中,每步都和数据仓库元数据密切相关。按照传统的定义,元数据(Metadata)是关于数据的数据。元数据支撑了数据仓库开发应用的全过程,成为数据从数据源到数据仓库的桥梁。数据抽取阶段,没有相应的映射规则,就无法知道需要抽取什么样的数据;在将源数据存储格式转换为目标数据存储格式时,需要知道源存储格式和目标存储格式的信息,以及相应的存储格式之间的转换规则;在数据加载阶段,需要知道目标
4、数据仓库的数据结构和相关信息。所有这些信息,都需要元数据提供。由此可见,ETL过程自始至终都需要元数据的支持和控制。正因为如此,要解决ETL开发中的问题,应当从相关的元数据着手。二、关于CWM及其提供的工作机制CWM(CommonWarehouseMetamodel公共仓库元模型)是国际对象管理集团OMG推出的数据仓库元数据管理规范。CWM的主要目的是在分布异构环境下,使数据仓库工具、工作平台和元数据存储库之间易于进行数据仓库元数据的交换。C丽基于以下三个工业标准制定:(UnifiedModelingLanguage统一建模语言)作为目前最为风行的建模语言,UML用于描述一般数据仓库架
5、构的元模型。(MetaObjectFacility元对象工具)MOF是OMG元模型和元数据的存储标准,用以定义存储库的结构、对外接口和交换格式的映射规则。(XMLMetadatalnterchange,XML元数据交换)XMI是基于XML的元数据交换。定义如何用XML表示基于MOF的元数据,使元数据以XML文件流的方式进行交换基于上列三个标准,CWM为数据仓库工具之间共享元数据,制定了一整套关于模式、语法和语义的规范。主要包括:(l)CWM元模型(Metamodel):描述数据仓库系统共享的元模型。它由一系列子元模型构成。(2)CWMXML:CWM元模型的XML表示。(3)CWMDTD
6、:DW/BI共享元数据的交换格式。(4)CWMIDL:DW/BI共享元数据的应用程序访问接口。基于CWM的数据仓库元数据转换和管理模型可用图1表示。从图1不难理解,元数据库也是基于C丽标准,通过CTM元模型映射构建。CWM以UML的元模型为基础,针对数据仓库领域的应用,使用特定的元类、元关系,将来自各异构数据源和数据仓库各个组件中的元数据,通过CTMXML、CVMDTD、O1IDL三个规范,转化为XML文档。为数据仓库元数据管理提供了满足元数据交换所需的语法和语义规范的、方便元数据交换和元数据存储的XML文件。三、基于CTM的数据仓库ETL系统架构1.基于QVM的ETL系统架构在研宄E
7、TL和QVM的基础上,设计出基于C丽的数据仓库ETL过程的系统架构,如图2所示。2.系统架构的结构分析(1)ETL子系统结构ETL子系统结构由五个模块组成。即:系统调度模块、元数据管理模块、数据抽取模块、数据转换模块和数据装载模块。其中,数据抽取模块负责将超市业务系统的原始数据进行抽取并保存到临时数据库中;数据转换模块负责对抽取出来的数据进行清洗、转换和计算汇总;数据装载模块负责将经过清洗、转换的、符合目标数据模型的数据装载到目标数据库中。以上
此文档下载收益归作者所有