欢迎来到天天文库
浏览记录
ID:59567899
大小:372.00 KB
页数:13页
时间:2020-11-11
《oracle_数据仓库简介备课讲稿.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、oracle_数据仓库简介而不是日常事务处理产生的数据,数据经加工和集成进入数据仓库后极少或根本不修改,数据仓库是不同时间的数据集合,它要求数据仓库中的数据保存时不仅能满足决策分析的需要,而且都要标明该数据的历史时期。d)数据仓库最根本的特点是物理地存放数据,而且这些数据并不是最新的、专有的,而是来源于其他数据库。传统的数据库系统主要负责日常操作性的事务处理任务,而数据仓库承担支持决策分析服务的数据平台。面向主题图解操作型环境数据仓库汽车顾客人寿保险单健康保险费意外伤亡索赔应用主题面向主题是通过一组相关的表来具体实现的。二、构建数据仓库的关键技术数据仓库的构建偏向于工程,具有强烈的工
2、程性,其关键技术主要有数据抽取、数据组织、数据表现三个方面。a)数据抽取数据的抽取是数据进入数据仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从数据库系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与数据源保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。见下图所示:b)数据组织数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据(数据源),先按辅助决策的主题需求形成当前基本数据层(接
3、口层,比如本公司数据库RP用户),再按综合决策的要求形成综合数据层(中间层,比如MID用户)。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据。c)数据形式数据仓库中存放着不同综合级别的数据,可分为四个级别:早期细节级、当前细节级、轻度综合级和高度综合级。源数据经过综合处理之后,首先进入当前细节级,并根据具体需要进一步的综合,从而进入轻度综合级乃至高度综合级,老化的数据将进入早期细节级。d)确定数据粒度数据粒度与数据仓库结构相关,是指数据仓库中一组数据单元所包含数据的详尽程度。粒度越大,数据表示的细节程度则越低,综合程度越高。粒度直接影响到驻留在数据仓库里的数据量以及在同一
4、时间里可以得到响应的查询类型。对于大型的数据仓库,往往需要建立多层粒度,其中一层对应数据仓库的当前细节级数据,一层对应轻度综合级数据,其他层则根据系统的性能要求以及业务的具体要求来设计。确定适当的粒度水平,首先要对数据的记录数和数据仓库的磁盘空间进行估算,接着考虑粒度的大小。通常利用经验选择粒度水平,先创建部分数据仓库让用户使用,当用户产生新的需求后,再对粒度进行调整,最终建立整个数据仓库的粒度水平和存储方式。见下图:以中青宝游戏数据库为例:e)数据表现数据表现本质上是指数据仓库的应用。目前,数据仓库已经广泛地应用在银行、金融服务、消费物品和零售批发部门,以及诸如基于需求的产品生产。
5、就功能而言,数据仓库的应用主要体现在信息处理、分析处理和数据挖掘三个方面:信息处理:支持查询和基本的统计分析,并使用交又表、表、图表或图进行报告。数据仓库信息处理的当前趋势是构造低成本的基于Web的存取工具,然后与Web浏览器集成在一起。分析处理:支持联机分析处理OLAP。分析处理一般是在汇总的和细节的历史数据上操作,主要优势在于支持多维数据分析。数据挖掘:支持知识发现,包括寻找隐藏的模式和关联,构造分析模式,进行分类和预测,并用可视化工具提供挖掘结构。总的来说,数据仓库的性能,集中表现在多维分析、数据挖掘方面。总之,数据仓库技术是数据库技术的发展和应用。建立数据仓库并不是要取代数据
6、库,而是在全面和完善的信息应用基础上进行数据分析,构建决策支持系统。目前,数据仓库、联机分析处理和数据挖掘技术的有效集成和应用,即联机分析挖掘系统,是数据仓库技术的应用趋势,同时也成为智能化应用系统的重要组成部分。它们主要区有以下几个方面:a)应用数据库面向操作应用,数据仓库面向主题分析;b)应用数据库允许DML操作,数据仓库不许修改数据;c)应用数据库是详细的数据,数据仓库是概要精化的数据;d)应用数据库为日常工作服务,数据仓库是为管理者服务的;e)数据仓库是高度集成的,大部分是粒度化数据。第二课堂设计数据仓库一、首先了解两个概念(粒度和维度)粒度是看问题的细腻程度,指定某一个维度
7、的最小单位做为粒度,是指数据按什么单位存储,可以按小时,天,周,月,季度,年等来存储,粒度不需要你创建,具体体现在你对数据的汇总级别上了(可以理解为,粒度只是观察问题详细或粗略的级别程度),比如你汇总为月了,那么你只能出月报了,日报就可能出不了。反之,你汇总为日粒度,日报,月报照样出。比如:日结算表,月结算表。维度则是多维数据集的结构性特性。它们是事实数据表中用来描述数据的分类的有组织层次结构。这些分类和级别分别描述了一些相似的成员集合,用户将基于这些成员
此文档下载收益归作者所有