欢迎来到天天文库
浏览记录
ID:48713224
大小:1.53 MB
页数:79页
时间:2020-01-26
《第二章 数据仓库原理.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第二章数据仓库原理2.1数据仓库结构体系2.2数据仓库的数据模型2.3数据抽取、转换和装载2.4元数据12.1数据仓库结构体系2.1.1数据仓库结构2.1.2数据集市及其结构2.1.3数据仓库系统结构2.1.4数据仓库运行结构23数据仓库是在数据库基础上发展起来的,其数据来源于数据库。数据仓库与数据库的区别:面向主题与面向事务。数据的组织结构不同。2.1.1数据仓库结构4数据仓库与数据库的区别:数据库面向事务:围绕公司功能性应用进行组织。强调要做什么!!如:保险公司可能的应用有汽车保险,人寿保险,健康保险,财产保险等。
2、2.1.1数据仓库结构5数据仓库与数据库的区别:面向主题:公司面对的对象。强调对什么做!!如:保险公司可能的对象(主题域)是顾客,保险单,保险费与索赔。生产商可能的对象(主题域)是:产品,销售商等;零售商可能的对象(主题域)是:顾客,商品,库存,销售等;2.1.1数据仓库结构6数据仓库与数据库的区别:“与时间相关”:数据库保存信息的时候,并不强调一定有时间信息。数据仓库则不同,出于决策的需要,数据仓库中的数据都要标明时间属性。同样都是累计购买过9车产品的顾客,一位是最近三个月购买9车,一位是最近一年从未买过,这对于决策
3、者意义是不同的。2.1.1数据仓库结构7数据仓库与数据库的区别:集成性:数据仓库需要把原始数据集成。如性别:数据库强调个体,数据仓库强调总体2.1.1数据仓库结构男女Mf010Xy8数据仓库与数据库的区别:集成性:数据仓库需要把原始数据集成。如销售额:数据库强调个体,数据仓库强调总体2.1.1数据仓库结构元千元千元万元百万元9数据仓库与数据库的区别:非易失:很少删除、修改。数据库是实现数据仓库的一种方式,但并不是唯一的途径2.1.1数据仓库结构10近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量
4、大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。2.1.1数据仓库结构数据综合11全国区域商店省/市城市如:公司的销售额可以如下综合1.数据集市的产生数据仓库是企业级的,工作范围和成本常常是巨大的。数据集市是部门级的,伴随功能性计算机管理信息系统而存在。数据集市w
5、indows普通服务器目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。132.1.2数据集市及其结构数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。DataMarts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。142.数据集市概念3.数据集市与数据仓库差别(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。(2)部门的主题
6、与企业的主题之间可能存在关联,也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。不能简单的认为数据集市数据规模没有数据仓库大!!151、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、更详细的、预先存在的数据仓库的摘要子集10、可升级到完整的数据仓库164.数据集市的特性独立数据集市(IndependentDataMart)从属数据集市(DependentDataMart)为访问数据仓库非常频繁的关键业务部门建立17数据源
7、于中央数据仓库2.1.3数据仓库系统结构数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。182.1.3数据仓库系统结构数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。19201、仓库管理仓库管理包括:数据建模、ETL、元数据和系统管理(1)数据建模数据建模是建立数据仓库的数据模型。数据模型包括数据结构和数据操作。数据结构包括:数据类型、内容、数据间的关系,描述的是数据的静态特征。数据操作是对数据仓库中数据所允许的操作。如检索、计算等211、仓库管理(1)数据建模数据仓库的数据模型不同于数据库
8、的数据模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库的数据模型中增加了时间属性数据。数据仓库的数据模型中增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻辑数据模型。结果是产生了冗余!!数据库和数据仓库底层模型不同,关系数据库采用ER关系模型,数据仓库采用多维数据模型。(2)数据抽取、转换、装载数据仓库
此文档下载收益归作者所有