数据仓库_3_数据仓库的基本结构.pdf

数据仓库_3_数据仓库的基本结构.pdf

ID:51008411

大小:1.47 MB

页数:49页

时间:2020-03-08

数据仓库_3_数据仓库的基本结构.pdf_第1页
数据仓库_3_数据仓库的基本结构.pdf_第2页
数据仓库_3_数据仓库的基本结构.pdf_第3页
数据仓库_3_数据仓库的基本结构.pdf_第4页
数据仓库_3_数据仓库的基本结构.pdf_第5页
资源描述:

《数据仓库_3_数据仓库的基本结构.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第三章数据仓库的基本结构2015/6/313数据仓库的基本结构一个完整的数据仓库的体系结构一般由三个层次组成,它们是:1)数据源(DataSource)2)数据仓库(DataWarehouse)3)数据集市(DataMart)三者之间通过数据仓库管理软件联系起来构成一个完整的数据体系。2015/6/3DataWarehouse23数据仓库的基本结构数据集市数据集市……数据集市数据仓建模数据仓库元数据管理库管理软抽取件ORACLESYBASE……SQLServer文件数据仓库系统示意图2015/6/3DataWarehouse33.1数据源多数据源数据仓库的

2、数据来源于多个数据源。不同格式的数据:由于企业在长期事务处理过程中随数据库管理系统本身发展,形成了企业内从简单到复杂、从小型到大型的各种,其中有大型关系数据库、对象数据库、桌面数据库、各种非格式化的数据文件等。不同的数据操作平台:多种关系数据库操作平台不同的物理位置数据源可以是递归的数据仓库的数据源可以是另外一个数据仓库(或数据集市)或OLAP服务器。2015/6/3DataWarehouse43.1数据源数据的抽取数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介

3、质中导入数据仓库。2015/6/3DataWarehouse53.1数据源数据从数据源到数据仓库需要完成的功能有:关键字输出到数据仓库环境中时需要被重建和转换,一般来说,要加入“时间成分”;数据要清理:取值范围检查、交叉记录验证、格式检验等;非关键字数据需要重新格式化:例如YYYY/MM/DD,需要转化为DD/MM/YYYY;多数据源的文件需要合并,合并时要进行关键字解析;需要提供默认值;经常需要进行数据的汇总;需要对数据元素的重命名操作进行跟踪……2015/6/3DataWarehouse63.1数据源数据从数据源到数据仓库方法:通过一个

4、语言接口(C、COBOL等)一次载入一条记录;使用一种工具全体批量的转载(较快)。数据抽取软件ETL工具(Extraction/Transformation/Loading)清洗工具(Cleaning)工作:抽取、筛选、清理、加载等高速装载大量数据:并行装载:将数据分为几个独立的工作流设立缓冲区:对数据进行缓冲处理,在缓冲区中合并数据2015/6/3DataWarehouse73.2数据仓库管理数据仓库中的数据企业内部各个部门当前及其历史上的细节性业务数据为了进行分析决策操作而生成的分析型综合数据对数据仓库中数据的管理需要借助成熟的数据库

5、技术对其进行存储管理利用改造过的关系数据库系统来组织和管理DW中的数据。增加必要的技术:多介质的管理、多接口的实现、数据并行处理等关闭不需要的技术:事务完整性、行/页级的锁定、参照完整性等等2015/6/3DataWarehouse8数据仓库的数据组织数据仓库中数据的组织方式与数据库不同,通常采用分级的方式进行组织。一般包括早期细节数据、当前细节数据、轻度综合数据、高度综合数据以及元数据五部分。(1)早期细节数据:指存储过去的详细数据,它反映了真实的历史情况,也称为历史数据层。通常存储在备用的海量存储器上。(2)当前细节数据:指最近时期的业务数据,它

6、反映了当前业务的情况,数据量大,是数据仓库用户最感兴趣的部分,也称为当前基本数据层。通常存储在直接存储存取设备和磁带上。该层数据一旦过期,就成为早期细节数据。2015/6/3DataWarehouse9数据仓库的数据组织高度综合数据层轻度综合数据层元数当前基本据数据层历史数据层2015/6/3DataWarehouse10数据仓库的数据组织细节数据的特点细节数据==低粒度;例如:一个顾客一个月中每次通话的费用(细节);一个顾客一个月内在某超市每次购买的一种物品(细节);数据量大;能够回答任何问题,例如:张三上个星期给他在杭州的女友打过电话没有?(事

7、务型)上个月某顾客在某超市一共购买了多少钱的物品?去年南京大学信息管理系在情报学报上发表了多少篇论文?2015/6/3DataWarehouse11数据仓库的数据组织(3)轻度综合数据:指从当前基本数据中提取出来,以较小的粒度(时间段)统计而形成的数据。这类数据较细节数据的数据量小得多。数据集市中的数据多为轻度综合数据。(4)高度综合数据:对轻度综合数据再进行综合(粒度变大),即形成高度综合数据。这一层的数据十分精练,损失了大量信息,是一种难决策数据。通常存储在快速且相对昂贵的存储介质上。(5)整个数据的组织结构由元数据统一来组织,它不包含任何业务数据库

8、中的实际数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。