欢迎来到天天文库
浏览记录
ID:40742974
大小:46.00 KB
页数:6页
时间:2019-08-07
《什么是数据仓库》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、什么是数据仓库?什么是数据仓库 数据仓库是一个环境,而不是一件产品,提供用户用于决策支持的当前和历史数据,这些数据在传统的操作型数据库中很难或不能得到。数据仓库技术是为了有效的把操作形数据集成到统一的环境中以提供决策型数据访问的各种技术和模块的总称。所做的一切都是为了让用户更快更方便查询所需要的信息,提供决策支持。 数据仓库的组成 数据抽数据净化 数据载入 信息发布系统 操作型数据和外界数据 数据集市 报表,查询, EIS工具 OLAP 工具 数据挖掘工具 操纵
2、平台 元数据 管理平台 无双回复于:2003-08-0317:43:11数据仓库数据库 是整个数据仓库环境的核心,是数据存放的地方和提供对数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和快速的检索技术。数据抽取工具 把数据从各种各样的存储方式中拿出来,进行必要的转化、整理,再存放到数据仓库内。对各种不同数据存储方式的访问能力是数据抽取工具的关键,应能生成COBOL程序、MVS作业控制语言(JCL)、UNIX脚本、和SQL语句等,以访问不同的数据。数据转换都包括,删除对决策应用
3、没有意义的数据段;转换到统一的数据名称和定义;计算统计和衍生数据;给缺值数据赋给缺省值;把不同的数据定义方式统一。元数据 元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按用途的不同分为两类,技术元数据和商业元数据。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的定义;数据清理和数据更新时用的规则;源数据到目的数据的映射;用户访问权限,数据备份历史记录,数据导入历史记录,信息发布历史记录等。 商业元数据从商业
4、业务的角度描述了数据仓库中的数据。包括:业务主题的描述,包含的数据、查询、报表; 元数据为访问数据仓库提供了一个信息目录(information directory),这个目录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据,用户通过他来了解和访问数据。 访问工具 为用户访问数据仓库提供手段。有数据查询和报表工具;应用开发工具;管理信息系统(EIS)工具;在线分析(OLAP)工具;数据挖掘工具。数据集市(Data Mart
5、s) 为了特定的应用目的或应用范围,而从数据仓库中独立出来的一部分数据,也可称为部门数据或主题数据(subject area)。在数据仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义的字段定义一定要相容,这样再以后实施数据仓库时才不会造成大麻烦。 数据仓库管理:安全和特权管理;跟踪数据的更新;数据质量检查;管理和更新元数据;审计和报告数据仓库的使用和状态;删除数据;复制、分割和分发数据;备份和恢复;存储管理。 信息发布系统:把数
6、据仓库中的数据或其他相关的数据发送给不同的地点或用户。基于Web的信息发布系统是对付多用户访问的最有效方法。 无双回复于:2003-08-0317:43:29建立数据仓库 为什么要建立数据仓库: 商业上:利用所有可能的数据快速而正确的做出决策;用户是业务领域的专家,而不是计算机专业人员;企业数据每18个月翻一番,需要有一种有效的访问这些数据的方法;在商业智能和有利用效企业数据方面,竞争的加剧。 技术上:计算机的计算能力越来越便宜(MIPS价格的下跌);存储介质价格的下跌; 网络带宽的增长,网络的传输能力越来越便
7、宜;整个企业的计算机环境越来越复杂,各个时代各个不同厂家的应用系统同时存在; 新的应用要访问其他应用的数据。 实施数据仓库应注意的问题: 商业上(考虑投资回报率) 实施的步骤:从上到下还是从下到上 人力资源的问题:培训还是雇佣 设计上(think big, but start small) 可能要用到很多类型的数据源,历史数据可能很“老”,数据库可能变得非常大。 数据仓库相对于OLTP来说,更加是业务驱动(business-driven)的而不是技术驱动的(IT-driven
8、),需要和最终用户不断的交流,建立的过程可能永远不会结束。 要点: 1) 数据仓库中应该包含细节数据(清理过的)。 2) 用户能看到的任何数据都应该在元数据中有对应的描述。 3) 考虑当数据量迅速增长到一台服务器放不下时,数据仓库中的数据在各个服务器总如何分配,按主题、地理位置、还是时间?
此文档下载收益归作者所有