欢迎来到天天文库
浏览记录
ID:32455803
大小:8.68 MB
页数:47页
时间:2019-02-05
《【5A版】数据仓库建模方法论.ppt》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据仓库建模方法论数据仓库概念数据仓库数据架构逻辑数据模型数据模型标准化工艺流程主题数据仓库领域的两位大师BillInmon数据仓库之父,数据仓库概念的创始人理论:CorporateInformationFactory(CIF)主要著作:《数据仓库》、《企业信息工厂》http://inmoncif.com主要著作:《数据仓库工具箱-维度建模的完全指南》、《数据仓库生命周期工具箱-设计、开发和部署数据仓库的专家方法》http://www.kimballgroup.comRalphKimball数据仓库方
2、面的知名学者理论:MutildimensionalArchitecture(MD)企业数据仓库EDW企业数据仓库定义:详细交易及相关业务数据的集合?包含必要的内部与外部信息?来自于多个数据源/业务操作系统?保存一定的时间周期?按照企业内业务规则所决定的模型来存储企业数据仓库作用:基于数据/信息来回答相关的业务问题和提供决策支持,并确保:一致、集成的数据存储?任意的数据粒度?在整个企业的业务范围?保持企业内一致的信息视图企业内一致的信息视图(SingleVersionoftheTruth)>集成的企业信
3、息(Integratedcorporateinformation)>不针对特定应用(Applicationneutral)>无冗余(Nonredundant)>用于报表和决策支持(Reportinganddecisionmaking)最详细的数据和信息(DetailedData)任何时候,针对任意数据,提出任意业务问题(Askanyquestion,anydata,anytime)数据仓库的特点面向主题:操作型数据库的数据组织面向事物处理任务,各个业务系统之间各自分离,而数据仓库中的数据是按照一定的主
4、题域进行组织的。例如:当事人、协议、机构、财务、事件、产品等主题。集成的:数据仓库中的数据是在对原有分散的数据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数据中的不一致性,以保证数据仓库内的信息是关于整个企业的一致的全局信息。相对稳定的:数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。反映历史变化:数据仓库中的数据通常
5、包含历史信息,系统记录了企业从过去某一时点(如开始应用数据仓库的时点)到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。企业信息工厂数据仓库总线企业总线总线架构矩阵多维体系结构与企业信息工厂体系结构比较方面多维体系结构企业信息工厂体系结构范围优先考虑业务单位范围优先考虑企业总体范围角度关心业务部门的需求多维建模师以企业视角,建立一致性维度。从企业角度解决供应源数据的问题,但并不是整个企业的数据必须在项目第一个阶段都处理。相反而是选择企业所有数据的一个子集。数据流实
6、施方法采用自底向上的:如何快速的获取由用户控制的业务部门专有的数据,并最小限度的考虑整个企业的使用快速需求收集和实现过程使得为整个环境提供一致而可靠数据的任务变得复杂。实施方法是自顶向下的:企业数据利用业务需求将数据从数据源推至需要这些数据的地方,其核心问题是从最初的项目开始为任何数据集市的使用而集成企业数据。为了制定尽可能在整个企业范围内一致的主题域和业务数据需要增加模型开销,需要更多的时间和代价。但后续项目则需要较少时间和代价,尤其对于使用现有的、健全的主题域的业务单位更是如此。实现对存储空间最小
7、需求,非冗余方式防止了在多个位置存储数据。这种特性使更新或删除异常最小化或者消除。易失性聚集数据集市:当业务过程发生变化,为了消除或减少对事实表重建,需要增加新的维或改变维。原子数据集市:由于事实表可能包含几亿甚至更多的数据,重建将会带来严重后果数据仓库模型是与过程无关的,它摒弃了由于处理过程影响而带来的变化数据仓库模型的设计依赖于企业的业务规则,而不依赖与在其上将运行什么查询。如果一个已经建好的数据集市需要改变或加强,可以根据存储在数据仓库中的细节数据合理且快速地进行重建灵活性多维设计是很多业务过
8、程聚集在一起的结果。当处理请求发生变化时,多维数据库的设计未必能够适度地变化。数据仓库模型存放数据粒度级别为原子级别,原子级别可以任意组合。故可以支持将来未知需求。复杂性数据集市模型易于业务人员理解。可以很容易构建数据集市,然而,当一个一个地建立数据集市时,由于数据的企业视图的复杂性,对于这种结构,完成更新时相当复杂的。数据仓库中的细节数据是与处理过程无关的,因此数据仓库的数据模型使得数据不一致的风险最小。功能性为多维处理提供了理想环境,切片和切块、上钻
此文档下载收益归作者所有