欢迎来到天天文库
浏览记录
ID:37183242
大小:207.00 KB
页数:6页
时间:2019-05-21
《数据仓库与数据集市》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、数据仓库与数据集市看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:看了很多数据仓库方面的资料,都涉及到了“数据集市”这一说法,刚开始对数据仓库和数据集市的区别也理解得比较肤浅,现在做个深入的归纳和总结,主要从如下几个方面进行阐述:(1)基本概念(2)为什么提出数据集市(3)数据仓库设计方法论(4)数据集市和数据仓库的区别(5)仓库建模与集市建模(6)案例分析:电信CRM数据仓库BillInmon说
2、过一句话叫“IT经理们面对最重要的问题就是到底先建立数据仓库还是先建立数据集市”,足以说明搞清楚这两者之间的关系是十分重要而迫切的!通常在考虑建立数据仓库之前,会涉及到如下一些问题:(1)采取自上而下还是自下而上的设计方法(2)企业范围还是部门范围(3)先建立数据仓库还是数据集市(4)建立领航系统还是直接实施(5)数据集市是否相互独立一、基本概念数据仓库一词尚没有一个统一的定义,著名的数据仓库专家W.H.Inmon在其著作《BuildingtheDataWarehouse》一书中给予如下描述:数据仓库(Data
3、Warehouse)是一个面向主题的(SubjectOri2ented)、集成的(Integrate)、相对稳定的(Non-Volatile)、反映历史变化(TimeVariant)的数据集合用于支持管理决策。对于数据仓库的概念我们可以从两个层次予以理解,首先,数据仓库用于支持决策,面向分析型数据处理,它不同于企业现有的操作型数据库;其次,数据仓库是对多个异构的数据源有效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中的数据一般不再修改。为最大限度地实现灵活性,集成的数据仓库的数据应该存储在
4、标准RDBMS中,并经过规范的数据库设计,以及为了提高性能而增加一些小结性信息和不规范设计。这种类型的数据仓库设计被称为原子数据仓库。原子数据仓库的子集,又莆菁小T硬挚獯嬖诘闹饕康氖亲魑菁械墓ぷ骰。币沧魑握招允莶挚狻T硬挚獾拇笮 ⒓写娣藕褪菘馍杓瓶赡芪薹闾厥饫嘈陀没У母髦中枨蟆F渥蛹?即各个数据集市被拷贝到其它计算机上,可作为它们自己的数据仓库。数据集市可以和产生它们的原子数据仓库一样大,甚至更大。它们可以位于原子数据仓库的附近,或分布到更靠近用户的位置,放置在何处取决于使用和通讯成本。数据集市是用来满足特殊用
5、户的应用需求的数据仓库,它们的规模可能达到数百GB。使其成为数据集市的关键是它的使用目标、范围,而非规模大小。数据集市可以理解为是一个小型的部门或者工作组级别的数据仓库。有两种类型的数据集市(如下图):500){this.resized=true;this.style.width=500;}"/>独立型(直接从操作型环境中获取数据):这些数据集市是由特定的工作组、部门或业务线进行控制的,完全是为满足其需求而构建的。实际上,它们甚至与其他工作组、部门或业务线中的数据集市没有任何连通性从属型(从企业级数据仓库中获取
6、数据):这样的数据集市往往以分布式的方式实现。虽然不同的数据集市是在特定的工作组、部门或生产线中实现的,但它们可以是集成、互连的,以提供更加全局的业务范围的数据视图。实际上,在最高的集成层次上,它们可以成为业务范围的数据仓库。这意味着一个部门中的终端用户可以访问和使用另一部门中数据集市中的数据二、为什么提出数据集市虽然OLTP和遗留系统拥有宝贵的信息,但是可能难以从这些系统中提取有意义的信息并且速度也较慢。而且这些系统虽然一般可支持预先定义操作的报表,但却经常无法支持一个组织对于历史的、联合的、智能的或易于访问
7、的信息的需求。因为数据分布在许多跨系统和平台的表中,而且通常是“脏的”,包含了不一致的和无效的值,使得难于分析。数据集市将合并不同系统的数据源来满足业务信息需求。若能有效地得以实现,数据集市将可以快速且方便地访问简单信息以及系统的和历史的视图。一个设计良好的数据集市有如下特点(有些特点数据仓库也具有,有些特点是相对于数据仓库来讲的):(1)特定用户群体所需的信息,通常是一个部门或者一个特定组织的用户,且无需受制于源系统的大量需求和操作性危机(想对于数据仓库)。(2)支持访问非易变(nonvolatile)的业务
8、信息。(非易变的信息是以预定的时间间隔进行更新的,并且不受OLTP系统进行中的更新的影响。)(3)调和来自于组织里多个运行系统的信息,比如账目、销售、库存和客户管理以及组织外部的行业数据。(4)通过默认有效值、使各系统的值保持一致以及添加描述以使隐含代码有意义,从而提供净化的(cleansed)数据。(5)为即席分析和预定义报表提供合理的查询响应时间(由于数据集市是部门级的,相对于庞大
此文档下载收益归作者所有