上海海洋大学大数据仓库复习内容

上海海洋大学大数据仓库复习内容

ID:44777677

大小:264.00 KB

页数:10页

时间:2019-10-28

上海海洋大学大数据仓库复习内容_第1页
上海海洋大学大数据仓库复习内容_第2页
上海海洋大学大数据仓库复习内容_第3页
上海海洋大学大数据仓库复习内容_第4页
上海海洋大学大数据仓库复习内容_第5页
资源描述:

《上海海洋大学大数据仓库复习内容》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、实用数据仓库与数据挖掘复习内容第一章4.说明OLTP概念和OLAO概念答:OLTP(OnLineTransactionProcessing,联机事物处理)是在网络环境下的事务处理工作以快速的响应和频繁的数据修改为特征,使用户利用数据库能够快速地处理具体的业务。 OLAP(OnLineAnalyticalProcessing)联机分析处理,是使用多维数据库和多维分析的方法,对多个关系数据库共同进行大量的综合计算来得到结果的方法。6.说明OLTP与OLAP的主要区别。答:OLTP针对的是细节性数据、当前数据、经常更新、一次性处理的数据量小、对响应时间要求高且面向应用,事务驱动;OLAP针

2、对的是综合性数据、历史数据、不更新,但周期性刷新、一次处理的数据量大、响应时间合理且面向分析,分析驱动。9.元数据与数据字典的关系什么答:在数据仓库中引入了“元数据”的概念,它不仅仅是数据仓库的字典,而且还是数据仓库本身信息的数据。15.数据挖掘与OLAP有什么不同答:OLAP是在带层次的维度和跨维度进行多维数据分析的。数据挖掘则不同,它是以变量和记录为基础进行分析的。第二章3.说明数据集市与数据仓库的区别与联系。 答:联系:数据集市是一种更小,更集中的数据仓库,为公司提供了一条分析商业数据的廉价途径。数据集市是指具有特定应用的数据仓库,主要针对某个具有战略意义的应用或者具体部门级的

3、应用文档实用支持用户利用已有的数据获得重要的竞争优势或者找到进入新市场的具体解决方案。 区别:(1)数据仓库是基于整个企业的数据模型建立的,它面向企业范围内的主题。而数据集市是按照某一特定部门的数据模型建立的。(2)部门的主题与企业的主题之间可能存在关联,也可能不存在关联。(3)数据集市的数据组织一般采用星型模型。 (4)画出数据集市的两种结构图,说明它们的不同点.独立型数据集市直接从操作型环境获取数据,从属型数据集市从企业级数据仓库获取数据,带有从属型数据集市的体系结构。17.简单说明ETL过程的主要步骤.ETL过程的主要步骤概括为:(1)决定数据仓库中需要的所有的目标数据(

4、2)决定所有的数据源,包括内部和外部的数据源(3)准备从源数据到目标数据的数据映射关系(4)建立全面的数据抽取规则(5)决定数据转换和清洗规则(6)为综合表制定计划(7)组织数据缓冲区域和检测工具(8)为所有的数据装载编写规程文档实用(9)维度表的抽取、转换和装载(10)事实表的抽取、转换和装载22.说明数据库中的元数据以及数据仓库中元数据的不同。答:关于数据源的元数据是现有业务系统的数据源的描述信息,是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3)每个数据项更新的频率

5、以及由谁或哪个过程更改过。(4)每个数据项的有效值。(5)其他系统中具有相同业务含义的数据项的清单。p24数据仓库的四种数据模型。答:星形模型。大多数数据仓库都采用星型模型,是事实表(大表)以及多个维表(小表)所组成。事实表存放着大量关于企业事实数据(数字实际值),对象(元组)个数通常都很大,而且非规范化程度很高。事实表有大量的行(元组),维表相对来说有较少的行。优点:存取速度快,主要针对各个维做了大量处理,做报表时速度很快。与规范化关系数据库相比,以增加存储空间为代价,提高了多维数据的查询速度,而规范化的关系数据库设计是使数据的冗余保持在最少并减少当数据改变时系统必须执行的动作。缺点

6、:当业务问题发生变化,原来的维不能满足要求时需要增加新的维,维的变化非常复杂耗时,数据冗余量很大。雪花模型。对星型模型的维表进一步的层次化,原来的各维表可能被扩展为小的事实表,形成一些局部的“层次”区域,优点是最大限度地减少数据存储量,以及把较小的维表联合在一起来改善查询信息。缺点:增加了用户必须处理的表的数量,增加了某些查询的复杂性。文档实用星网模型。多个相关的星型模型通过相同的维表连接起来形成网状结构,各个事实共享的维表是时间维。第三范式。3NF解决数据冗余,数据被分割为多个实体,实体在数据库中用表来表示,使用3NF会形成比较复杂的关系表,但适合于操作型处理。星型模型的设计模式适用

7、于决策分析应用。第三章3.2节OLAP的三种数据模型及其比较;答:MOLAP数据模型:MOLAP数据模型是基于多维数据库的OLAP,简称多维OLAP;ROLAP数据模型:ROLAP是基于关系数据库的OLAP,简称关系OLAP。HOLAP,即混合OLAP介于MOLAP和ROLAP之间。在HOLAP的多维数据库中的数据维度少于MOLAP中的维度库,数据储存容量也少于MOLAP方式。但是,HOLAP在数据存取速度上又低于MOLAP。第四章数据仓库概念

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。