数据仓库概念的简单理解.doc

数据仓库概念的简单理解.doc

ID:52199513

大小:69.00 KB

页数:7页

时间:2020-03-24

数据仓库概念的简单理解.doc_第1页
数据仓库概念的简单理解.doc_第2页
数据仓库概念的简单理解.doc_第3页
数据仓库概念的简单理解.doc_第4页
数据仓库概念的简单理解.doc_第5页
资源描述:

《数据仓库概念的简单理解.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据仓库概念的简单理解 一个典型的企业数据仓库系统通常包含数据源、数据存储与管理、OLAP服务器以及前端工具与应用四个部分。如下图所示: 数据源:是数据仓库系统的基础,是整个系统的数据源泉。通常包括企业内部信息和外部信息。内部信息包括存放于企业操作型数据库中(通常存放在RDBMS中)的各种业务数据和办公自动化(OA)系统包含的各类文档数据。外部信息包括各类法律法规、市场信息、竞争对手的信息以及各类外部统计数据及各类文档等;数据的存储与管理:是整个数据仓库系统的核心。在现有各业务系统的基础上,对数据进行抽取、清理,并有效集成,按照主题进行重新组织,最终确定数据仓库的物理存储结构,同时组织存储数据

2、仓库元数据(具体包括数据仓库的数据字典、记录系统定义、数据转换规则、数据加载频率以及业务规则等信息)。按照数据的覆盖范围,数据仓库存储可以分为企业级数据仓库和部门级数据仓库(通常称为“数据集市”,DataMart)。数据仓库的管理包括数据的安全、归档、备份、维护、恢复等工作。这些功能与目前的DBMS基本一致。OLAP服务器:对分析需要的数据按照多维数据模型进行再次重组,以支持用户多角度、多层次的分析,发现数据趋势。其具体实现可以分为:ROLAP、MOLAP和HOLAP。ROLAP基本数据和聚合数据均存放在RDBMS之中;MOLAP基本数据和聚合数据均存放于多维数据库中;而HOLAP是ROLAP

3、与MOLAP的综合,基本数据存放于RDBMS之中,聚合数据存放于多维数据库中。前端工具与应用:前端工具主要包括各种数据分析工具、报表工具、查询工具、数据挖掘工具以及各种基于数据仓库或数据集市开发的应用。其中数据分析工具主要针对OLAP服务器,报表工具、数据挖掘工具既针对数据仓库,同时也针对OLAP服务器。 集线器与车轮状结构的企业级数据仓库 这种结构也称为“HubandSpoke”,这是因为中央数据库汇集了来自各业务处理系统的数据,同时也负责向各从属数据集市提供信息,看上去像一个Hub(集线器);而业务人员在进行数据分析与信息访问时将根据需要连接到不同的数据集市,这种交叉复杂的连接看上去就像S

4、poke(车轮辐条)一样。“HubandSpoke”结构解决了企业内统一数据存储模型的问题,但从实际使用的角度来看仍有比较严重的缺陷:一是业务人员对信息的访问非常不方便,很难进行跨数据集市或跨部门的信息分析;另一个问题是每个数据集市都需要相应的软硬件投入,当数据集市增加时,系统整体投资迅速增加,同时管理的复杂性也随之增加。这些都意味着巨大的整体拥有成本TCO(TotalCostofOwnership)。为什么不直接访问中央数据仓库而非要设计一个数据集市层呢?主要原因在于当中央数据库保存越来越多的数据、并发用户越来越多时,一般的数据库引擎无法承担这样的负载,只好把它们分解到不同的数据集市。对于“

5、HubandSpoke”结构的数据仓库,GartnerGroup也认为,“数据仓库的HubandSpoke结构,回避了DBMS技术中的弱点,无法提供适当的业务价值来平衡投资成本的显著增加”,“之所以产生这种趋势,是由于对大多数DBMS产品而言,支持复杂的数据模型和并发查询负载都是极大的挑战”。 集中式企业级数据仓库第二种企业级数据仓库的架构是集中式的,这解决了“HubandSpoke”结构中存在的诸多问题,是一种比较理想的企业级数据仓库系统架构,能够为企业带来真正的业务价值与回报。但由于把详细数据分析、部分的数据转换与清洗等复杂处理均集中在中央数据仓库,从而给作为数据仓库引擎的RDBMS和相应

6、的服务器带来了极大的挑战。选择这种数据仓库基础平台的基本要求是: 1、线性扩展能力。原始数据对任何一个数据仓库来说,都是最主要的负载之一。随着数据量的增长,系统性能会逐渐下降。维持合理的业务查询响应时间,要求数据仓库引擎和相应的数据库服务器具有优良的线性扩展能力。一些系统的扩展能力非常有限,当数据量增长到一定规模时(比如TB级以上),就很难满足日常的业务分析要求了,因而不得不把数据分离到多个小规模的数据集市,形成所谓的“HubandSpoke”结构。2、并行处理能力。许多业务查询与分析都是动态的,数据库传统的索引技术对动态分析和模糊查询的帮助不大。系统只有具有非常好的并行处理能力,才能满足复杂

7、的、动态的分析需求,并且承担比较复杂的数据转换与清洗工作。3、简单的系统管理。对于大型的数据仓库应用系统而言,如何能有效而简单地进行系统管理是非常重要的。特别是当数据量不断扩大时,如果没有一种有效而且简单的系统管理措施,那么系统的运行费用将会很高。数据仓库的实施是一个长期的过程,在基础设施建立完成后,随着应用的逐步开展和深入,其投资回报也逐步增加。在建立数据仓库过程中需要一定的时间来建立数据仓库基

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。