《数据仓库基本原理》PPT课件

《数据仓库基本原理》PPT课件

ID:38901274

大小:920.50 KB

页数:131页

时间:2019-06-21

《数据仓库基本原理》PPT课件_第1页
《数据仓库基本原理》PPT课件_第2页
《数据仓库基本原理》PPT课件_第3页
《数据仓库基本原理》PPT课件_第4页
《数据仓库基本原理》PPT课件_第5页
资源描述:

《《数据仓库基本原理》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第二章数据仓库基本原理第2章数据仓库的基本原理2.1数据仓库的体系结构2.1.1数据仓库的体系结构数据仓库的体系结构可以用图2-1来表示。由于数据库和数据仓库应用的出发点不同,数据仓库将独立于业务数据库系统,但是数据仓库与业务数据库系统息息相关。数据仓库不是简单的对数据进行存储,而是对数据进行“再组织”。2.1.1数据仓库的体系结构2.1.2数据仓库的关键名词下面我们沿着数据的流向详细说明数据在数据仓库处理的过程,以及一些关键名词。1.数据提取(DataExtraction)从数据仓库的角度来看,并不是业务数据库中的所有数据

2、都是决策支持所必需的。通常,数据仓库按照分析的主题来组织数据,我们只需要提取出系统分析必需的那一部分数据。例如,某超市确定以分析客户的购买行为为主题建立数据仓库,则我们只需将同客户购买行为相关的数据提取出来,而超市服务员工的数据就没有必要放进数据仓库。现有的数据仓库产品几乎都提供各种关系型数据接口,从关系型数据中提取数据。2.1.2数据仓库的关键名词2.数据清洗(DataCleaning)由于企业常常为不同的应用对象建立不同的业务数据库,比如一个电信运营公司拥有计费数据库、账务数据库、客户数据库、客户投诉数据库等业务系统,这

3、些业务系统中可能包含重复的信息,比如客户数据库中的部分客户基本信息也在客户投诉数据库中存在。由于不同的数据库可能使用不同数据库公司的产品,不同的业务系统可能有不同的软件开发商提供,这使得各个业务数据库中的数据存在不一致的现象,数据库使用人员的操作失误也会造成数据的不一致。2.1.2数据仓库的关键名词如图2-2所示,显示了一个数据不一致的例子。客户数据库中有一张客户基本信息表,其中记录了客户的客户号、姓名、年龄等基本信息。在客户服务数据库中有一张客户咨询信息表用于记录客户咨询问题的内容和解答。由于数据库使用人员的失误,使得在客

4、户基本信息表中的100号客户“张山”,在客户咨询表中的客户姓名被错误的录入为“张三”。客户基本信息表客户咨询信息表客户号:100姓名:张山年龄:23客户号:100姓名:张三咨询问题:…图2-2操作失误导致数据不一致2.1.2数据仓库的关键名词由于冗余的数据存放在不同的数据库中,如果不同数据库间的数据刷新不是实时的,则可能出现数据不同步的情况。如图2-3所示,在客户基本信息表中记录了100号客户“张山”的手机状态正常,如果此时张山去办理停机手续,在客户业务变更表中,张山的手机状态将被修改为“停机”,如果数据刷新不够实时,客户基

5、本信息表中的手机服务状态将与客户业务变更表不同步。客户基本信息表客户业务变更表客户号:100姓名:张山年龄:23手机服务状态:正常客户号:100姓名:张三业务变更:停机图2-3数据刷新不实时导致数据不同步2.1.2数据仓库的关键名词对于决策支持系统来说,最重要的是决策的准确性,因此确保数据仓库中数据的准确性是极其重要的。从多个业务系统中获取数据时,必须对数据进行必要的清洗,从而得到准确的数据。所谓“清洗”就是将错误的、不一致的数据在进入数据仓库之前予以更正或删除,以免影响决策支持系统决策的正确性。2.1.2数据仓库的关键名词

6、3.数据转化(DataTransformation)由于业务系统可能使用不同的数据库厂商的产品,比如IBMDB2、Informix、Sybase、SQLServer、NCR等,各种数据库产品提供的数据类型可能不同,因此需要将不同格式的数据转换成统一的数据格式。比如图2-4中所示的不同时间格式的差异。2.1.2数据仓库的关键名词4.提取仓库(ExtractionStore)由于业务数据库系统中的数据和数据格式存在不一致的问题,因此在把数据放进数据仓库前需要进行缓存,以等待清洗和转换,这些数据缓存的位置即提取仓库。5.提取日志(

7、ExtractionLog)当从业务系统提取数据时,需要记录提取数据的过程,这个过程被记载在提取日志中。提取日志详细记录了数据的来源,数据的转化过程等,它是数据仓库元数据的重要组成部分,它对于保证数据质量非常重要,并且便于数据管理员验证数据的质量。2.1.2数据仓库的关键名词6.数据管理员在数据仓库中,还有一个重要的角色,就是数据管理员。数据管理员不同于数据库管理员和系统管理员。数据库管理员负责数据库系统的数据备份、恢复、性能优化等工作,系统管理员负责操作系统级的维护和管理,而数据管理员是负责数据质量的专业人员,数据管理员查

8、阅提取日志,发现其中记载的数据提取中出现的错误,有时候数据管理员还要检测源业务系统的错误,比如业务系统中的程序或者不正确的数据项造成的错误。2.1.2数据仓库的关键名词7.外部数据源(ExternalSource)外部数据源就是从系统外部获取的同分析主题相关的数据。对于一个好的决策,不但需

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。