数据挖掘与数据仓库复习资料

数据挖掘与数据仓库复习资料

ID:15173280

大小:29.23 KB

页数:18页

时间:2018-08-01

数据挖掘与数据仓库复习资料_第1页
数据挖掘与数据仓库复习资料_第2页
数据挖掘与数据仓库复习资料_第3页
数据挖掘与数据仓库复习资料_第4页
数据挖掘与数据仓库复习资料_第5页
资源描述:

《数据挖掘与数据仓库复习资料》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、数据挖掘与数据仓库复习资料2010-04-0716:511数据仓库与数据挖掘的关系大多数数据挖掘工具需要在集成的、一致的、经过清理的数据上进行挖掘。数据挖掘过程中所需要的数据处理与分析工具完全可以在数据仓库的数据处理与数据分析工具中找到,数据仓库中的OLAP完全可以为数据挖掘提供有关的数据操作支持数据挖掘技术在数据仓库中的应用,正好弥补了数据仓库只能提供大量数据,而无法进行深度信息分析的缺陷。2数据仓库与传统数据库长期共存首先,企业内数据库与数据仓库将长期共存。其次,数据库是数据仓库的基础。第三,在技术实现方面,数据库与数据仓库几乎没有差别。第四,不要脱离企业的实

2、际,盲目地、片面地、甚至是赶时髦地去实施数据仓库。第五,数据仓库在能够为企业带来利益的同时,在支持企业信息决策中也存在一些局限性。总之,不要过分夸大数据仓库与传统数据库的差异,不要过分夸大数据仓库系统的作用、贬低数据库系统的作用。数据库与数据仓库将长期共存下去。3挖掘与信息的关系4弥补传统数据库不足传统数据库的主要任务是进行事务处理,它所关注的是事务处理的及时性、完整性与正确性,而在数据的分析处理方面,则存在着诸多的不足,主要体现在缺乏集成性、主题不明确等几个方面。1.集成性的缺乏首先,业务数据库系统的条块与部门分割,导致数据分布的分散化与无序化。其次,业务数据库

3、缺乏统一的定义与规划,导致数据定义存在歧义。2.主题不明确3.分析处理效率低5数据仓库的特点和主题特点:数据仓库是面向主题的数据仓库是集成的数据仓库是稳定的数据仓库是随时间变化的数据仓库的数据量很大数据仓库软硬件要求较高6体系结构(三个层次)数据集市结构数据集市结构或称为主题结构的数据仓库是按照主题进行构思所形成的数据仓库,没有一个独立的数据仓库。系统的数据不存储在同一数据仓库中,每个主题有自己的物理存储区。单一数据仓库结构将所有的主题都集中到一个大型数据库中的体系结构。数据源中数据被按照同一标准抽取到独立的数据仓库中,用户在使用时再根据主题将数据仓库中的数据发布

4、到数据集市中。分布式数据仓库结构在企业各个分公司具有相当大的独立性时,企业总部设置一个全局数据仓库,各个分公司设置各自的局部数据仓库。局部数据仓库主要存储各自的未经转换的细节数据,全局数据仓库中主要存储经过转换的综合数据7数据仓库与数据组织1.星形模型由事实表和多个维度表组成。事实表中存放大量关于企业的事实数据,对象个数通常都很大,而且非规范化程度很高。为度表中存放描述性数据,维度表是围绕事实表建立的较小的表。优点:星形模型是非规范化的,以增加存储空间的代价,提高了多维数据的查询速度。而规范化的关系数据库设计是使数据的冗余保持在最少,并减少了当数据改变时系统必须执

5、行的动作。缺点:当事务问题发生变化,原来的维度不能满足要求时,需要增加新的维。由于事实表的主键由所有的围标的主键组成,这种维度的变化带来数据变化将是非常复杂非常耗时的。星形模型的数据冗余量很大。2.雪花模型雪花模型是对星形模型的扩展,雪花模型对星形模型的维度表进一步层次化,原来的各维度可能被扩展为小的事实表,形成一些局部的“层次”区域。它的优点是最大限度的减少数据存储量,以及把较小的维度表联合在一起来改善查询性能。雪花模型增加了用户必须处理的表的数量,增加了某些查询的复杂性。但这种方式可以是系统进一步专业化和实用化,同时降低了系统的通用程度。3.第三范式(特点)把

6、事实表和维度表的属性作为一个实体都集中在同一数据库表中,或分成多个实体用多个表来表示,表按第三范式组织数据,减少了维度表中的键和不必要的属性。星形模型在进行多维数据分析时,在不超过预定义的维度范围内,速度是很快的,但是在超出了预定义的维度,增加维度将是很困难的事情。第三范式对于海量数据,且需要处理大量的动态业务分析时,就显示了他的优势。4.数据抽取、转换和装载抽取包括1.确认数据源2.数据抽取技术8概念模型设计将需求分析过程中得到的用户需求抽象为信息结构,即为概念模型。是从客观世界到计算机世界的一个中间层次。最常用的表示方法是实体-关系法(E-R法),用E-R图作

7、为它的描述工具。9逻辑模型设计逻辑模型设计是把概念模型设计好的E-R图转换成计算机所支持的数据模型。数据仓库在计算机中的数据模型是星形模型。这样数据仓库的逻辑模型设计主要是将用E-R突表示的概念模型转换成星形模型。主要工作为:(1)主题域进行概念模型(E-R图)到逻辑模型(星形模型)的转换;(2)粒度层次分析;(3)关系模式定义;(4)定义记录系统。10物理模型的设计数据仓库的物理模型设计是为了逻辑模型设计的数据模型确定一个最适合应用要求的物理结构(包括存储结构和存取方法)。所作的工作是:估计存储容量确定数据的存储计划确定索引确定数据存放位置确定存储分配11维度表

8、维度表的属

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。