数据仓库和BI技术概况.docx

数据仓库和BI技术概况.docx

ID:52759505

大小:265.63 KB

页数:25页

时间:2020-03-30

数据仓库和BI技术概况.docx_第1页
数据仓库和BI技术概况.docx_第2页
数据仓库和BI技术概况.docx_第3页
数据仓库和BI技术概况.docx_第4页
数据仓库和BI技术概况.docx_第5页
资源描述:

《数据仓库和BI技术概况.docx》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、1.数据仓库1.1.概念数据仓库项目是以关系数据库为依托,以数据仓库理论为指导、以OLAP为多层次多视角分析,以ETL工具进行数据集成、整合、清洗、加载转换,以前端工具进行前端报表展现浏览,以反复叠代验证为生命周期的综合处理过程。最终目标是为了达到整合企业信息信息,把数据转换成信息、知识,提供决策支持。1.2.数据源数据库、磁带、文件、网页等等。同一主题的数据可能存储在不同的数据库、磁带、甚至文件、网页里都有。1.3.数据粒度粒度问题第一反应了数据细化程度;第二在决策分析层面粒度越大,细化程度越低。一般情况

2、,数据仓库需求存储不同粒度的数据来满足不同层面的要求。例子如顾客的移动话费信息。1.4.数据分割分割结构相同的数据,保证灵活的访问数据。1.5.设计数据仓库l与OLTP系统的接口设计:ETL设计l数据仓库本身存储模型的设计:数据存储模型设计1.6.ETL设计难点数据仓库有多个应用数据源,导致同一对象描述方式不同:l表达方式不同:字段类型不同l度量方式不同:单位不同l对象命名方式不同:字段名称不同l数据源的数据是逐步加载到数据仓库,怎么确定数据已经加载过l如何避免对已经加载的数据的读取,提高性能l数据实时发生

3、变化后怎么加载1.数据存储模型过程模型:适用于操作性环境。数据模型:适用于数据仓库和操作性环境。数据模型从设计的角度分:高层次模型(实体关系型),中间层建模(数据项集),物理模型。1.1.数据仓库的存储方式数据仓库的数据由两种存储方式:一种是存储在关系数据库中,另一种是按多维的方式存储,也就是多维数组。1.2.数据仓库的数据分类数据仓库的数据分元数据和用户数据。用户数据按照数据粒度分别存放,一般分四个粒度:早期细节级数据,当前细节级数据,轻度综合级,高度综合级。元数据是定义了数据的数据。传统数据库中的数据字

4、典或者系统目录都是元数据,在数据仓库中元数据表现为两种形式:一种是为了从操作型环境向数据仓库环境转换而建立的元数据,它包含了数据源的各种属性以及转换时的各种属性;另一种元数据是用来与多维模型和前端工具建立映射用的。1.3.数据存储模型分类多维数据建模以直观的方式组织数据,并支持高性能的数据访问。每一个多维数据模型由多个多维数据模式表示,每一个多维数据模式都是由一个事实表和一组维表组成的。多维模型最常见的是星形模式。在星形模式中,事实表居中,多个维表呈辐射状分布于其四周,并与事实表连接。在星型的基础上,发展出

5、雪花模式。通常来说,数据仓库使用星型模型。1.3.1.星型模型位于星形中心的实体是指标实体,是用户最关心的基本实体和查询活动的中心,为数据仓库的查询活动提供定量数据。每个指标实体代表一系列相关事实,完成一项指定的功能。位于星形图星角上的实体是维度实体,其作用是限制用户的查询结果,将数据过滤使得从指标实体查询返回较少的行,从而缩小访问范围。每个维表有自己的属性,维表和事实表通过关键字相关联。星形模式虽然是一个关系模型,但是它不是一个规范化的模型。在星形模式中,维度表被故意地非规范化了,这是星形模式与OLTP系

6、统中的关系模式的基本区别。使用星形模式主要有两方面的原因:提高查询的效率。采用星形模式设计的数据仓库的优点是由于数据的组织已经过预处理,主要数据都在庞大的事实表中,所以只要扫描事实表就可以进行查询,而不必把多个庞大的表联接起来,查询访问效率较高。同时由于维表一般都很小,甚至可以放在高速缓存中,与事实表作连接时其速度较快;便于用户理解。对于非计算机专业的用户而言,星形模式比较直观,通过分析星形模式,很容易组合出各种查询。总结一下星型模型的特点:l非正规化;l多维数据集中的每一个维度都与事实表连接(通过主键和外

7、键);l不存在渐变维度;l有冗余数据;l查询效率可能会比较高;l不用过多考虑正规化因素,设计维护较为简单1.1.1.雪花模型在实际应用中,随着事实表和维表的增加和变化,星形模式会产生多种衍生模式,包括星系模式、星座模式、二级维表和雪花模式。雪花模式是对星形模式维表的进一步层次化,将某些维表扩展成事实表,这样既可以应付不同级别用户的查询,又可以将源数据通过层次间的联系向上综合,最大限度地减少数据存储量,因而提高了查询功能。雪花模式的维度表是基于范式理论的,因此是界于第三范式和星形模式之间的一种设计模式,通常是

8、部分数据组织采用第三范式的规范结构,部分数据组织采用星形模式的事实表和维表结构。在某些情况下,雪花模式的形成是由于星形模式在组织数据时,为减少维表层次和处理多对多关系而对数据表进行规范化处理后形成的。雪花模式的优点是:在一定程度上减少了存储空间;规范化的结构更容易更新和维护。同样雪花模式也存在不少缺点:雪花模式比较复杂,用户不容易理解;浏览内容相对困难;额外的连接将使查询性能下降。在数据仓库中,通常不推荐“雪花化

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。