基于cwm的商场数据仓库etl系统架构研究

基于cwm的商场数据仓库etl系统架构研究

ID:26811912

大小:59.00 KB

页数:8页

时间:2018-11-29

基于cwm的商场数据仓库etl系统架构研究_第1页
基于cwm的商场数据仓库etl系统架构研究_第2页
基于cwm的商场数据仓库etl系统架构研究_第3页
基于cwm的商场数据仓库etl系统架构研究_第4页
基于cwm的商场数据仓库etl系统架构研究_第5页
资源描述:

《基于cwm的商场数据仓库etl系统架构研究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、基于CWM的商场数据仓库ETL系统架构研究  [摘要]在完成商场数据仓库数据模型的设计与构建后,数据的抽取、转换、加载成为建立数据仓库最重要的工作。针对商场数据仓库对ETL技术的要求,在研究C工作机制的基础上,提出了基于C的商场数据仓库ETL系统架构的设计。通过分析C对ETL提供的技术支持,论证了系统架构的可行性和科学性。  [关键词]商场数据仓库ETL元数据CETL系统架构    商场数据仓库数据模型建立后,一个最重要的问题,是如何把已有的、各种异构的操作型的海量数据,从各种操作型数据库系统中抽取出来,排除数据中的数据缺陷,完成一系列转换,最后将数据加载到数据

2、仓库中,成为面向主题的、集成的、历史的、不易娈的、综合的数据。为管理者提供决策支持的有用信息。国内外有影响力的大型商场企业纷纷率先建立自己的数据仓库或数据集市。以满足决策的需要。  一、ETL概述  ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,它是指:将各种异构数据源中的数据抽取出来,并将不同数据源的数据进行转换和整合,得出一致性的数据,然后加载到数据仓库中。ETL工具,是数据仓库系统的重要组成部分;是影响数据仓库系统成败的关键。  获取ETL工具有两个途径:利用现有商品化ETL工具,虽然能缩短系统的开发周期,但存在投

3、资成本大,软件的针对性、通用性、兼容性差的问题。自行设计开发一个标准通用的ETL工具,提高ETL的实用价值,降低项目实施的成本和风险,具有重要的意义。  由于数据仓库和数据源系统在数据格式、数据模型等方面存在很大差异,客观上形成数据仓库ETL实现过程很大的难度。在ETL的工作过程中,每步都和数据仓库元数据密切相关。  按照传统的定义,元数据(Metadata)是关于数据的数据。元数据支撑了数据仓库开发应用的全过程,成为数据从数据源到数据仓库的桥梁。  数据抽取阶段,没有相应的映射规则,就无法知道需要抽取什么样的数据;在将源数据存储格式转换为目标数据存储格式时,需

4、要知道源存储格式和目标存储格式的信息,以及相应的存储格式之间的转换规则;在数据加载阶段,需要知道目标数据仓库的数据结构和相关信息。所有这些信息,都需要元数据提供。  由此可见,ETL过程自始至终都需要元数据的支持和控制。正因为如此,要解决ETL开发中的问题,应当从相关的元数据着手。  二、关于C及其提供的工作机制  C(monetamodel公共仓库元模型)是国际对象管理集团OMG推出的数据仓库元数据管理规范。C的主要目的是在分布异构环境下,使数据仓库工具、工作平台和元数据存储库之间易于进行数据仓库元数据的交换。  C基于以下三个工业标准制定:  1.UML(U

5、nifiedModelingLanguage统一建模语言)  作为目前最为风行的建模语言,UML用于描述一般数据仓库架构的元模型。  2.MOF(MetaObjectFacility元对象工具)  MOF是OMG元模型和元数据的存储标准,用以定义存储库的结构、对外接口和交换格式的映射规则。  3.XMI(XMLMetadataInterchange,XML元数据交换)  XMI是基于XML的元数据交换。定义如何用XML表示基于MOF的元数据,使元数据以XML文件流的方式进行交换。  基于上列三个标准,C为数据仓库工具之间共享元数据,制定了一整套关于模式、语法和语

6、义的规范。主要包括:  (1)C元模型(Metamodel):描述数据仓库系统共享的元模型。它由一系列子元模型构成。  (2)CXML:C元模型的XML表示。  (3)CDTD:DIDL:D的数据仓库元数据转换和管理模型可用图1表示。从图1不难理解,元数据库也是基于C标准,通过C元模型映射构建。C以UML的元模型为基础,针对数据仓库领域的应用,使用特定的元类、元关系,将来自各异构数据源和数据仓库各个组件中的元数据,通过CXML、CDTD、CIDL三个规范,转化为XML文档。为数据仓库元数据管理提供了满足元数据交换所需的语法和语义规范的、方便元数据交换和元数据存储

7、的XML文件。  三、基于C的数据仓库ETL系统架构  1.基于C的ETL系统架构  在研究ETL和C的基础上,设计出基于C的数据仓库ETL过程的系统架构,如图2所示。  2.系统架构的结构分析  (1)ETL子系统结构  ETL子系统结构由五个模块组成。即:系统调度模块、元数据管理模块、数据抽取模块、数据转换模块和数据装载模块。其中,数据抽取模块负责将超市业务系统的原始数据进行抽取并保存到临时数据库中;数据转换模块负责对抽取出来的数据进行清洗、转换和计算汇总;数据装载模块负责将经过清洗、转换的、符合目标数据模型的数据装载到目标数据库中。以上三个模块的活动被系统

8、调度模块统一调度,结合元

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。