《数据仓库与数据挖掘》课件 2 数据仓库原理

《数据仓库与数据挖掘》课件 2 数据仓库原理

ID:11401328

大小:316.00 KB

页数:49页

时间:2018-07-11

《数据仓库与数据挖掘》课件 2 数据仓库原理_第1页
《数据仓库与数据挖掘》课件 2 数据仓库原理_第2页
《数据仓库与数据挖掘》课件 2 数据仓库原理_第3页
《数据仓库与数据挖掘》课件 2 数据仓库原理_第4页
《数据仓库与数据挖掘》课件 2 数据仓库原理_第5页
资源描述:

《《数据仓库与数据挖掘》课件 2 数据仓库原理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第2章数据仓库原理12.1数据仓库结构体系2.2数据仓库的数据模型2.3数据抽取、转换和装载2.4元数据22.1数据仓库结构体系2.1.1数据仓库结构2.1.2数据集市及其结构2.1.3数据仓库系统结构2.1.4数据仓库运行结构3近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据

2、是在轻度综合数据基础上的再一次综合,是一种准决策数据。2.1.1数据仓库结构451.数据集市的产生数据仓库工作范围和成本常常是巨大的。开发数据仓库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。2.1.2数据集市及其结构6数据集市(DataMarts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。DataMarts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。2.数据集市概念73.

3、数据集市与数据仓库差别(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。81、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、更详细的、预先存在的数据仓库的摘要子集10、可升级到完整的数据仓库4.数据集市的特性9独立数据集市(IndependentDataMart)从属数据集市(Dependen

4、tDataMart)10数据仓库系统由数据仓库(DW)、仓库管理和分析工具三部分组成。2.1.2数据仓库系统结构111、仓库管理(1)数据建模数据建模是建立数据仓库的数据模型。数据仓库的数据模型不同于数据库的数据模型在于:数据仓库只为决策分析用,不包含事务处理的数据。数据仓库增加了时间属性数据。数据仓库增加了一些综合数据。数据仓库的数据建模是适应决策用户使用的逻辑数据模型。12(2)数据抽取、转换、装载数据仓库中的数据,是通过在源数据中抽取数据,按数据仓库的逻辑数据模型的要求进行数据转换,再按物理数据模型的要求装载到数据仓库中去。数据抽取、转换、装载

5、(ETL)是建立数据仓库的重要步骤,需要花费开发数据仓库70%的工作量。13(1)查询工具数据仓库的查询不是指对记录级数据的查询,而是指对分析要求的查询。一般包含:可视化工具:以图形化方式展示数据,可以帮助了解数据的结构,关系以及动态性。2、分析工具14(2)多维分析工具(OLAP工具):通过对信息的多种可能的观察形式进行快速、一致和交互性的存取,这样便利用户对数据进行深入的分析和观察。多维数据的每一维代表对数据的一个特定的观察视角,如时间、地域、业务等。15(3)数据挖掘工具从大量数据中挖掘具有规律性知识,需要利用数据挖掘(DataMining)工

6、具。162.1.4数据仓库的运行结构数据仓库应用是一个典型的客户/服务器(C/S)结构形式:客户端所做的工作:客户交互、格式化查询、结果显示、报表生成等。服务器端完成各种辅助决策的SQL查询、复杂的计算和各类综合功能等。17OLAP服务器将加强和规范化决策支持的服务工作,集中和简化了原客户端和数据仓库服务器的部分工作,降低了系统数据传输量。这种结构形式工作效率更高。OLAP的三层C/S结构18数据仓库存储采用多维数据模型。2.2数据仓库的数据模型果汁可乐牛奶商品维奶油浴巾香皂北京上海长沙1234567城市维日期维19维就是相同类数据的集合,商店、时间

7、和产品都是维。各个商店的集合是一维,时间的集合是一维,商品的集合是一维。每一个商店、每一段时间、每一种商品就是某一维的一个成员。每一个销售事实由一个特定的商店、一个特定的时间、一个特定的商品组成。两维表,如通常的电子表格。三维构成立方体,若再增加一维,则图形很难想象,也不容易在屏幕上画出来。20大多数的数据仓库都采用“星型模型”。星型模型是由“事实表”(大表)以及多个“维表”(小表)所组成。“事实表”中存放大量关于企业的事实数据(数量数据)。例如:多个时期的数据可能会出现在同一个“事实表”中。“维表”中存放描述性数据,维表是围绕事实表建立的较小的表。

8、星型模型数据如下图:2.2.1星型模型2122订货表客户表销售员表事实表产品表日期表地区表星型模型数据存储情

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。