欢迎来到天天文库
浏览记录
ID:30367805
大小:2.32 MB
页数:66页
时间:2018-12-29
《《全面认识数据仓库》word版》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库。
1、全面认识数据仓库1.前言随着我行信息科技工作进入后蓝图时代,后线分析系统注1建设的需求会越来越高,将在快速响应、高效实施、灵活应变、信息统一、全局分析、深度挖掘、监管有力、报送及时、降低成本等方面提出更多新的挑战。面对蓝图成功投产后新的产品体系,如何统一规划全辖数据资源、整合后线产品架构、准备各项技术预研可能是将来信息科技工作的一个重心。数据仓库(DW)是各行业后线系统发展的一个重要方向,它在克服部门级应用的局限(数据分隔注2、重复存储、重复中间加工过程注3、维护工作繁琐、资源重复投入等)、满足全辖基础数据共享、提供全局分析视角和应用组
2、件、支持快捷灵活和低成本的开发部署等方面有着不可替代的功能和地位。数据仓库本身有着不同视角的概念解释,大可涵盖整个企业级应用架构,小可专注于单纯的数据建模与存储;数据仓库涉及重多相关技术,如ETL、数据模型设计、多维分析、数据挖掘等;数据仓库建设可能是一个复杂高难的全局性项目,正确的实施路径、策略、方法与有效的质量管理是项目成败的关键;另外,数据仓库系统实施后的管理与维护,也是保证各类后线应用系统长期顺利运行的重要因素。针对这些数据仓库相关的概念、技术、策略、方法等,可能并不是每个人都有比较全面的了解。因此有必要对这些做一个系统的介绍,
3、使大家对数据仓库有一个全面清晰的认识。531.数据仓库入门介绍Ø应用需求背景随着联机事务处理(OLTP)业务系统的深入应用,企业各类业务数据不断积累和丰富,越来越需要从大量数据中提取有价值的信息,以辅助决策和指导经营。管理信息系统(MIS)和早期的决策支持系统注4(DSS)主要是基于传统的数据库技术和事务处理环境,这种系统结构随着业务系统建设规模的扩大、数据量的巨增和数据复杂度的提高,已无法满足综合分析型应用的需求,造成数据丰富而信息贫乏的困境。首先,人们逐渐认识到,分析处理和事务处理具有极不相同的性质,事务处理通常是对数据库进行联机的
4、查询和修改操作,每笔交易的响应时间和数据的安全完整是关键;而分析型处理往往是对大规模历史数据的批量加工计算,数据的规范统一和整体时间窗口是重要关注点。因此直接采用传统数据库技术和使用事务处理环境来支持分析型系统是不合适和失败的。两类系统的特点比较见表-1:事务处理型应用分析处理型应用很多用户少量用户小事务、频率高、时间短大事务、频率低、时间长一次数据操作量小,是小单元的随机数据操作一次数据操作量大,是大集合的批量数据操作更新与插入操作都很频繁更新操作较少,插入操作较多需要当前的细节的业务数据需要历史的整合的综合数据响应时间是关键总的处理
5、时间是关键面向应用、事务驱动,数据范围小面向分析、分析驱动,数据范围大表-1另一方面,企业的各类应用系统是在不同时期通常由各部门或分支机构面向53特定应用建设的,存在着数据平台异构、数据结构和数据标准不统一等问题。传统的数据库技术和事务处理环境对于实现基于个别业务系统的部门级MIS和初级DSS系统尚可支持,而对实现全局范围的离散数据整合和综合信息利用,建设跨部门的企业级分析应用已无能为力。Ø数据仓库的提出麻省理工学院在20世纪70年代对业务系统和分析系统的处理过程进行研究,结论是只能采用完全不同的架构和设计方法。1988年,IBM为解决
6、全企业数据集成问题,提出了信息仓库的概念,确立了原理、架构和规范,但没有进行实际的设计。1991年,BillInmon提出了数据仓库概念,并对为什么建设数据仓库和如何建设数据仓库进行了论述。BillInmon被称为数据仓库之父。Inmon对数据仓库的定义是“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,它用以支持经营管理中的决策制定过程”。这个定义主要描述了数据仓库的四个最基本特征。在数据仓库的整体概念中,这是对最核心部分的狭义定义。我们还应该知道,除了这个最核心的仓库体之外,广义的数据仓库概念,还包括来自各源业务系统的数
7、据经过采集、下传和加载等步骤进行入仓库体的过程,包括仓库体的数据针对各类分析需求进行多维加工、挖掘、利用的过程,并包括全程数据流程设计和数据质量管理等过程。从狭义上说,数据仓库是一个具有四个基本特征的数据仓储体,从广义上说,数据仓库是一种架设企业后线分析类应用的解决方案。伴随着数据仓库,同时期还出现了联机分析处理(OLAP)和数据挖掘(DM)等新技术,从此,DW+OLAP+DM就逐渐形成新决策支持系统的概念。再后来的商务智能(BI)应用需求更是基于DW+OLAP+DM的支持。53Ø两种数据仓库设计思路提出数据仓库的不至Inmon一个人。
8、BillInmon和RalphKimball都是数据仓库的首创者,但对数据仓库设计的观点很不相同。首先需要了解一个数据集市(DM)的概念。相对于数据仓库是一个企业级的高度综合数据集,数据集市就是部门级的轻度
此文档下载收益归作者所有