数据仓库与数据挖掘.ppt

数据仓库与数据挖掘.ppt

ID:51958647

大小:588.50 KB

页数:52页

时间:2020-03-26

数据仓库与数据挖掘.ppt_第1页
数据仓库与数据挖掘.ppt_第2页
数据仓库与数据挖掘.ppt_第3页
数据仓库与数据挖掘.ppt_第4页
数据仓库与数据挖掘.ppt_第5页
资源描述:

《数据仓库与数据挖掘.ppt》由会员上传分享,免费在线阅读,更多相关内容在PPT专区-天天文库

1、数据仓库与数据挖掘中国科学技术大学商学院课程内容简介:第一部分:数据仓库技术数据仓库概念数据仓库设计操作数据存储多维数据模型联机分析处理2课程内容简介:第二部分:数据挖掘概念与技术数据挖掘概念概念描述关联规则分类和预测聚类分析数据挖掘应用实例3第一章数据仓库技术概述1.1数据库到数据仓库1.2数据仓库的概念和特征1.3数据仓库中的数据组织1.4数据库体系化环境4传统的数据环境:以数据库为中心,数据资源组织方式单一。数据处理不断有新需求,从事务处理,批处理到决策分析等,且不同类型的数据处理有不同的处理特点。人们认识

2、到:当数据处理方式发生变化,而数据组织方式并没有改变时,就会出现数据处理方式和数据环境不相适应,从而使得数据处理不能获得理想的结果。结论:以单一的数据组织方式进行组织的数据库,不能满足数据处理多样化的要求,数据仓库技术应运而生。1.1从数据库到数据仓库51.1从数据库到数据仓库数据处理具有多层次的特点,可分为两大类:操作型处理对数据库联机的日常操作,通常是对一个或一组记录的查询或修改,主要为企业的特定应用服务。它采用实时或在线的方式处理数据库,人们关心的是响应时间,数据的安全性和完整性。61.1从数据库到数据仓库

3、分析型处理用于管理人员的决策分析,经常要访问大量的历史数据,而很少对数据库进行写操作,除非对数据库进行更新或装入时。人们希望从中获得跟公司经营效益紧密相关的信息。两种不同类型的数据处理存在巨大差异,从应用的对象到数据的结构、内容和用法都不相同。具体表现在:71.1从数据库到数据仓库(1)事务处理和分析处理的性能特征不同事务处理环境:用户的行为特点是数据的存取操作频率高,而每次操作处理的时间短。因此系统可以允许多个用户按分时方式使用系统资源,同时保持较短的响应时间。分析处理环境:用户的行为模式与上面完全不同,一个分

4、析处理程序可能要连续运行几个小时,从而消耗大量系统资源。81.1从数据库到数据仓库【例】在OLTP系统中,事务的吞吐量比率通常使用每秒钟完成的数据处理数TPS或TPM来表示。在DSS中,吞吐量通常用每小时处理的查询数QPH来表示。这些查询数量庞大,在它完成前,占用绝大部分机器资源。一个OLTP系统即使很大,也不过300GB左右,而一个大型DSS的规模可以轻易达到1TB。(1TB=1000GB)91.1从数据库到数据仓库(2)数据集成问题事务处理:目的在于使业务处理自动化,一般只需要与本部门业务相关的当前数据,而对

5、整个企业范围内的集成应用考虑很少。分析处理:需要集成的数据,不仅需要整个企业内部各部门的相关数据,还需要企业外部、竞争对手等处的相关数据。101.1从数据库到数据仓库当前绝大多数企业内部数据的真正状况是分散而非集成的,主要原因:事务处理应用的分散“蜘蛛网”问题数据不一致问题外部数据和非结构化数据111.1从数据库到数据仓库(3)数据动态集成静态集成:对所需数据一次性集成,之后就一直以此集成数据做为分析基础,不再与数据源发生联系。它最大缺点在于:当数据源发生变化(集成后),而这些变化不能反映给决策者,导致决策者使用

6、的是过时的数据。动态集成:集成数据以一定的周期进行刷新。OLTP不具备动态集成,而分析处理需要数据的动态集成。121.1从数据库到数据仓库(4)历史数据问题事务处理:一般只需当前数据。数据库中也只存储短期数据,并且不同数据保存期也不相同。即使有历史数据保存,也不利用。分析处理:对决策者而言,历史数据相当重要,许多分析方法必须以大量历史数据为依托,没有对历史数据的详细分析,很难把握企业的发展趋势。131.1从数据库到数据仓库(5)数据的综合问题事务处理积累了大量的细节数据,一般DSS不对细节数据分析。一是细节数据量

7、大,严重影响分析效率;二是太多的细节数据不利于分析人员将注意力集中在有用信息上。因此,分析处理前经常要综合,而事务处理系统不具备这种综合能力。14第一章数据仓库技术概述1.1数据库到数据仓库1.2数据仓库的概念和特征1.3数据仓库中的数据组织1.4数据库体系化环境151.2数据仓库的概念和特征数据仓库系统构造方面的领头设计师W.H.Inmen对数据仓库的定义为:数据仓库是面向主题的、集成的、具有时间特征的、稳定的数据集合,用于支持经营管理中的决策制定过程。SAS软件研究所的观点:数据仓库是一种管理技术,旨在通过通

8、畅、合理、全面的信息管理达到有效的决策支持。161.2数据仓库的概念和特征从定义可看出:DW是明确为决策支持服务,而DB是为事务处理服务。前面简短而又全面的定义指出了数据仓库的主要特征,四个关键词:面向主题的、集成的、时变的、稳定的,将数据仓库与其他数据存储系统相区别。下面讨论数据仓库的关键特征:171.2数据仓库的概念和特征1.数据仓库的数据是面向主题的主题是一个在较高

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。