欢迎来到天天文库
浏览记录
ID:40506355
大小:249.75 KB
页数:37页
时间:2019-08-03
《数据仓库的数据存储与处理》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、第2章数据仓库的数据存储与处理8/6/20211数据仓库与数据挖掘数据存储与数据处理是数据仓库系统实施的三个关键环节中的中心环节。数据存储结构设计和数据处理技术的研究在数据仓库理论中占有重要地位。第2章数据仓库的数据存储与处理8/6/20212数据仓库与数据挖掘2.1数据仓库的数据结构三层数据结构8/6/20213数据仓库与数据挖掘2.1数据仓库的数据结构各个组成部分的含义:操作性数据:来源于业务系统中的数据。调和数据:存储在企业级数据仓库中的数据。导出数据:从数据仓库中导出并存储在各个数据集市中的数据。企业数据模型:企业组
2、织所需数据的整体轮廓。元数据:有关数据的说明。8/6/20214数据仓库与数据挖掘2.2数据仓库的数据特征状态数据与事件数据当前数据与周期数据数据仓库中的元数据8/6/20215数据仓库与数据挖掘状态数据与事件数据:状态数据:描述对象状态的数据。事件数据:描述对象发生的事件的数据。数据库和数据仓库中存储的基本数据类型是状态数据。但是数据仓库中往往还存储事务或事件数据的汇总。8/6/20216数据仓库与数据挖掘当前数据与周期数据:当前数据(业务系统):保留的最新数据。周期数据(数据仓库):保留的历史数据。8/6/20217数据
3、仓库与数据挖掘数据仓库中的元数据:数据仓库中的另一特征。8/6/20218数据仓库与数据挖掘2.3数据仓库的数据ETL过程ETL概念ETL过程前后数据的特征数据的ETL过程描述抽取(Capture/Extract)清洗(Scrub/Cleanse)转换(Transform)加载和索引(Load/Index)8/6/20219数据仓库与数据挖掘ETL的概念:数据ETL是用来实现异构数据源的数据集成,即完成数据的抓取/抽取(Capture/Extract)、清洗(Scrubordatacleansing)、转换(Transfor
4、m)、装载与索引(LoadandIndex)等数据调和工作。8/6/202110数据仓库与数据挖掘数据的ETL过程描述:8/6/202111数据仓库与数据挖掘数据抽取:几点要求:数据源命名的透明度。源系统实施的业务规则的完整性和准确性。数据格式的一致性。SELECT……INTO、存储过程等方法。8/6/202112数据仓库与数据挖掘数据清洗:原因:操作型业务系统中的数据质量很差。错误拼写的名字和地址。不可能的或错误的出生日期。不匹配的地址和电话区号。缺失的数据。重复的数据。……8/6/202113数据仓库与数据挖掘数据转换:
5、在ETL过程中处于中心位置,又很麻烦。将经过清洗后的数据(源系统)转换成装载对象(目标系统)的格式。8/6/202114数据仓库与数据挖掘数据加载和索引:将整理好的数据添加到数据仓库中。(方法?)建立索引。8/6/202115数据仓库与数据挖掘数据ETL过程的实施要点:ETL过程是一个数据流动的过程,中间的“T”(转换)是关键;ETL工具的选择非常重要,运用合适的工具会事半功倍;如何保证数据质量?数据质量在一定程度上决定了数据仓库的价值。8/6/202116数据仓库与数据挖掘2.4多维数据模型和星模式多维数据模型及其相关概念
6、多维数据模型的物理实现多维建模技术简介一个星模式的例子8/6/202117数据仓库与数据挖掘多维数据模型及其相关概念有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级8/6/202118数据仓库与数据挖掘有关多维数据模型的几个概念:维、维类别、维属性、度量、粒度及分割等8/6/202119数据仓库与数据挖掘维的类别即维的分层。可分为:简单层次复杂层次全国江苏北京上海维类别8/6/202120数据仓库与数据挖掘全
7、国江苏北京上海苏州市扬州市宝应县复杂层次8/6/202121数据仓库与数据挖掘维属性维的一个取值。8/6/202122数据仓库与数据挖掘度量即度量值,是多维数据空间中的单元格,用以存放数据,也叫事实。度量8/6/202123数据仓库与数据挖掘粒度与分割数据粒度:是对数据仓库中的数据的综合程度高低的度量。(一般分为四个级别:高度综合级、轻度综合级、当前细节级、早期细节级)分割:将数据分散到各自的物理单元中去以便能分别处理,提高数据处理效率,数据分割后的数据单元称为分片。数据分割的标准:可按日期、地域、业务领域或按多个分割标准的
8、组合。数据分割的目的:便于进行数据的重构、索引、重组、恢复、监控、扫描。8/6/202124数据仓库与数据挖掘关于数据综合级别与粒度的确定:一般把数据分成四个级别:早期细节级、当前细节级、轻度综合级、高度综合级8/6/202125数据仓库与数据挖掘一个典型的数据仓库的数据组织结构图:数据仓
此文档下载收益归作者所有