《数据仓库的设计》PPT课件

《数据仓库的设计》PPT课件

ID:41221928

大小:308.51 KB

页数:42页

时间:2019-08-19

《数据仓库的设计》PPT课件_第1页
《数据仓库的设计》PPT课件_第2页
《数据仓库的设计》PPT课件_第3页
《数据仓库的设计》PPT课件_第4页
《数据仓库的设计》PPT课件_第5页
资源描述:

《《数据仓库的设计》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第二章数据仓库的设计◆数据仓库与传统数据库设计方法的区别◆数据仓库的三级模型◆提高数据仓库性能的各种技术◆数据仓库的设计方法和步骤2.1数据仓库设计方法概述一、数据仓库设计与数据库系统设计区别◆面向的处理类型不同DB:操作型数据环境,面向具体应用DW:分析型环境,面向分析,一般开发是从最基本的主题开始,不断发展新的主题,完善已有的主题。◆面向的需求不同DB:有较确定的应用需求,有比较确切的信息流DW:需求灵活,没有固定的模式,用户甚至不能清楚需求,不可能从用户出发来进行数据仓库设计。◆系统设计目标不同DB:事务处理

2、性能(主要是事务处理响应时间)是主要目标DW:建立一个全局的数据环境,保证数据的四个基本特征,数据全局一致性,实现对数据的全局管理和控制◆数据来源或系统的输入不同DB:通常来自组织外部,主要考虑如何将获得的数据用适当的方式存储、如何对对数据进行联机的查询更新操作,保证数据安全可靠。DW:主要来自已存在的系统内部,主要考虑如何从现存的数据源中得到完整一致的数据,如何对数据进行转换、综合,如何提高数据分析的效率◆系统设计的方法和步骤不同DB:业务过程和规则比较规范(如库存管理、采购业务管理等),有独立的收集需求和分析需

3、求的阶段。一般采用生命周期法。DW:面向的管理人员一般不能对分析的需求作出规范说明,需求分析贯穿整个过程。数据仓库的开发应用像生物一样具有其特有的、完整的生命周期,数据仓库的开发应用周期可以分成:数据仓库规划分析阶段数据仓库设计实施阶段数据仓库的使用维护阶段这三个阶段是一个不断循环、完善、提高的过程。在一般情况下数据仓库系统不可能在一个循环过程中完成,而是经过多次循环开发,每次循环都会为系统增加新的功能,使数据仓库的应用得到新的提高。二、数据仓库的开发方法及步骤2.2数据仓库设计的三级模型数据模型:模型是对现实世界

4、进行抽象的工具。在信息管理中需要将现实世界的事物及其有关特征转换为信息世界的数据才能对信息进行处理与管理,这就需要依靠数据模型作为这种转换的桥梁。这种转换一般需要经历从现实到概念模型,从概念模型到逻辑模型,从逻辑模型到物理模型的转换过程。现实世界概念世界逻辑世界计算机世界信用特性属性列(字段、数据项)张三个体实体记录顾客整体同质总体表文件顾客与产品整体间联系异质总体数据库DW数据模型与OLTP数据模型区别:(1)不包含纯操作型数据(2)扩充了主键结构,增加了时间属性(3)增加大量的导出数据一、概念模型表示方法:实体

5、-关系模型(E-R)模型顾客变动信息商品变动信息顾客号商品固有信息顾客固有信息顾客号供应商号开户日期日期销售数量日期商品号商品顾客销售二、逻辑模型目前数据仓库还是建立在关系数据库基础上的,所以在数据仓库中采用的逻辑模型就是关系模型,主题以及主题之间的联系都是通过关系来表示。关系模型概念简单、清晰、用户易懂,并且有严格的数学基础和关系数据理论。表示方法:关系模式即关系名(属性1,属性2,…)三、物理模型物理模型:逻辑模型在数据仓库中的实现,如物理存取方式,数据存储结构,数据存放位置,存储分配等。设计物理模型考虑因素:

6、I/O存取时间、空间利用率、维护代价等。考虑到数据仓库中的数据量大而且操作单一等特点,可采用一些提高数据仓库性能的技术,如:合并表、引入冗余、生成导出数据、建立广义索引等。四、高级模型、中级模型和低级模型高级模型:即E-R模型低级模型:即物理数据模型,与数据库相同中间模型:DIS(dataitemset)数据项集。可以看作是E-R图的细分,每个实体有一个DIS对应,其中的数据项分为四个组别:基本数据项组、二级数据项组、联接数据项组、类型数据项组数据仓库之父W.H.Inmon在《BuildingtheDataWare

7、house》一书中对数据仓库的三级模型有另一种提法:高级模型、中级模型和低级模型联接数据组:本主题域与其他主题域的联系,体现E-R模型中的“联接”,一般是一个主题的公共码键。其余三组数据组的划分依据不同程度的数据稳定性,基本数据组>二级数据组>类型数据组以顾客主题为例:顾客号、顾客名、性别等信息,是基本不变的,可以列为基本数据组,主码一般列入基本数据组;顾客住址、文化程度、电话等虽然也基本稳定,但是存在变化的可能,列为二级数据组;顾客的购物记录是经常变化的,列入类型数据组。2.3提高数据仓库的性能一、粒度划分粒度:

8、数据仓库中数据的详细程度和级别,粒度越大。数据综合程度越高,不同粒度级别的数据对应不同类型的分析处理。粒度划分是否得当是影响数据仓库性能的一个重要方面。粒度划分:(1)先要确定所有数据仓库中的表,估计每个表的大约行数,这里只估计一个上下限。注:粒度划分的决定性因素不是总的数据量而是总行数(2)根据估算出的数据行,来确定是否要划分粒度。一般情况下,如果一年内数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。