数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆).ppt

数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆).ppt

ID:51743143

大小:3.33 MB

页数:106页

时间:2020-03-30

数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆).ppt_第1页
数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆).ppt_第2页
数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆).ppt_第3页
数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆).ppt_第4页
数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆).ppt_第5页
资源描述:

《数据仓库和数据挖掘的OLAP技术(武汉大学-李春葆).ppt》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第2章数据仓库和数据挖掘的OLAP技术数据仓库-数据挖掘的有效平台。数据仓库中的数据清理和数据集成,是数据挖掘的重要数据预处理步骤。数据仓库提供OLAP工具,可用于不同粒度的数据分析。很多数据挖掘功能都可以和OLAP操作集成,以提供不同概念层上的知识发现。分类预测关联聚集2.1什么是数据仓库20世纪80年代中期,“数据仓库”这个名词首次出现在号称“数据仓库之父”W.H.Inmon的《BuildingDataWarehouse》一书中。在该书中,W.H.Inmon把数据仓库定义为“一个面向主题的、集成的、稳定的、随时间变化的数据的集合,以用于支持管理

2、决策过程”。2.1.1数据仓库的定义数据仓库还有许多不同的定义,如:“数据仓库是融合方法、技术和工具以在完整的平台上将数据提交给终端用户的一种手段”。“数据仓库是对分布在企业内部各处的业务数据的整合、加工和分析的过程”。“数据仓库是一种具有集成性、稳定性和提供决策支持的处理”。“为查询和分析(不是事务处理)而设计的关系数据库”在众多的数据仓库定义中,公认的仍然是W.H.Inmon的定义,该定义指出了数据仓库面向主题、集成、稳定、随时间变化这4个最重要的特征。(1)面向主题主题就是在一个较高的管理层次上对信息系统的数据按照某一具体的管理对象进行综合、

3、归类所形成的分析对象。如顾客、供应商、产品和销售组织等。从数据组织的角度看,主题是一些数据集合,这些数据集合对分析对象作了比较完整的、一致的描述,这种描述不仅涉及到数据自身,而且涉及到数据之间的关系。面向主题的数据组织方式,就是在较高层次上对分析对象的数据的一个完整、一致的描述,能完整、统一地刻画各个分析对象所涉及的企业的各项数据,以及数据之间的联系。(2)集成数据仓库中存储的数据一般从企业原来已建立的数据库系统中提取出来,但并不是原有数据的简单拷贝,而是经过了抽取、筛选、清理、综合等工作。这是因为:1)原有数据库系统记录的是每一项业务处理的流水帐

4、,这些数据不适合于分析处理。在进入数据仓库之前必须经过综合、计算,同时抛弃一些分析处理不需要的数据项,必要时还要增加一些可能涉及的外部数据。2)数据仓库每一个主题所对应的源数据在源分散数据库中有许多重复或不一致之处,必须将这些数据转换成全局统一的定义,消除不一致和错误之处,以保证数据的质量;显然,对不准确,甚至不正确的数据分析得出的结果将不能用于指导企业做出科学的决策。3)源数据加载到数据仓库后,还要根据决策分析的需要对这些数据进行概括、聚集处理。(3)稳定性即非易失的业务系统的数据库中一般只存储短期数据,因此在数据库系统中数据是不稳定的,它记录的

5、是系统中数据变化的瞬态。但对于决策分析而言,历史数据是相当重要的,许多分析方法必须以大量的历史数据为依托。没有大量历史数据的支持是难以进行企业的决策分析的,因此数据仓库中的数据大多表示过去某一时刻的数据,主要用于查询、分析,不像业务系统中的数据库那样,要经常进行修改、添加,除非数据仓库中的数据是错误的。(4)随时间而变化即时变的数据仓库中数据是批量载入的,是稳定的,这使得数据仓库中的数据总是拥有时间维度。从这个角度,数据仓库实际是记录了系统的各个瞬态,并通过将各个瞬态连接起来形成动画,从而在数据分析的时候再现系统运动的全过程。数据批量载入(提取)的

6、周期实际上决定了动画间隔的时间,数据提取的周期短,则动画的速度快。2.1.2数据仓库与操作数据库系统的区别操作数据库系统的主要任务是联机事务处理OLTP日常操作:购买,库存,银行,制造,工资,注册,记帐等。数据仓库的主要任务是联机分析处理OLAP数据分析和决策支持,支持以不同的形式显示数据以满足不同的用户需要。OLTP和OLAP的比较(1/3)用户和系统的面向性面向顾客(事务)面向市场(分析)。数据内容当前的、详细的数据历史的、汇总的数据。数据库设计实体-联系模型(ER)和面向应用的数据库设计星型/雪花模型和面向主题的数据库设计。OLTP和O

7、LAP的比较(2)数据视图当前的、企业内部的数据经过演化的、集成的数据。访问模式事务操作只读查询(但很多是复杂的查询)任务单位简短的事务复杂的查询。访问数据量数十个数百万个。OLTP和OLAP的比较(3)用户数数千个数百个。数据库规模100M~数GB100GB~数TB。设计优先性高性能、高可用性高灵活性、端点用户自治。度量事务吞吐量查询吞吐量、响应时间。2.1.3为什么需要一个分离的数据仓库?提高两个系统的性能DBMS是为OLTP而设计的:存储方式、索引、并发控制和恢复。数据仓库是为OLAP而设计:复杂的OLAP查询、多维视图和汇总

8、。不同的功能和不同的数据:历史数据:决策支持需要历史数据,而这些数据在操作数据库中一般不会去维护。数据汇总:决策支持需要将

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。