欢迎来到天天文库
浏览记录
ID:37452065
大小:1.08 MB
页数:120页
时间:2019-05-12
《数据仓库与数据挖掘原理及应用V》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据仓库与数据挖掘原理及应用东华理工大学理学院刘爱华目录数据仓库基础7.分类和预测数据仓库设计和实现8.关联分析数据仓库实例9.Web挖掘OLAP和OLAM10.数据挖掘实例5.数据挖掘基础11.知识聚类分析12.语义网和本体1数据仓库基础1.1引言1.2体系结构1.3组成1.4元数据1.5数据粒度1.6数据模型1.7ETL1.1引言数据仓库定义数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。此定义由最为权威的、被称为“数据仓库之父”的WilliamH.Inmon先生给出。面向主题的是相
2、对于传统数据库的面向应用而言的。所谓面向应用,指的是系统实现过程中主要围绕着一些应用或功能。而面向主题则考虑一个个的问题域,对问题域涉及到的数据和分析数据所采用的功能给予同样的重视。典型的主题领域顾客、产品、事务或活动、保险单、索赔和账目。1.1引言集成的数据仓库中的数据来自各个不同的数据源(操作数据库)。由于历史的原因,各操作数据库的组织结构往往是不同的,在这些异构数据输入到数据仓库之前,必须经历一个集成过程。1.1引言集成的最重要的特点。应用问题的设计人员制定出不同的设计决策,且表示方法不同。例如编码、命名习惯、实际属
3、性和属性度量等方面不一致。数据进入数据仓库时,需要消除各种不一致性。例如,数据仓库中顾客“性别”的编码,可采用“男/女”或“m/f”,采用哪种方式并不重要,重要的是在数据仓库中应该统一编码。如果应用数据编码为“X/Y”,则进入数据仓库时需要进行转换。此外,对所有应用所涉及的问题都要考虑一致性。例如命名习惯、键码结构、属性度量以及数据特点等。1.1引言与时间相关的数据仓库以维的形式对数据进行组织,时间维是数据仓库中很重要的一个维度。并且数据仓库中的数据时间跨度大,从几年甚至到几十年,称为历史数据。1.1引言不可修改的面向应用
4、的事务数据库需要对数据进行频繁的插入、更新操作,而对于数据仓库中数据的操作仅限于数据的初始导入和记录查询。操作型数据是一次访问和处理一个记录,可以对操作型数据库中的数据进行更新。但数据仓库中的数据则不同,通常是一起载入与访问的,在数据仓库环境中并不进行一般意义上的数据更新。1.1引言1.2体系结构二层体系结构1.2体系结构三层体系结构1.3数据仓库组成一个数据仓库的大小一般都是在100GB以上通常,数据仓库系统应该包含下列程序:(1)抽取数据与加载数据(2)整理并转换数据(采用一种数据仓库适用的数据格式)(3)备份与备存数
5、据(4)管理所有查询(即将查询导向适当的数据源)1.3数据仓库组成1.4元数据定义元数据(Metadata)是关于数据的数据。在数据仓库系统中,元数据可以帮助数据仓库管理员和数据仓库开发人员非常方便地找到他们所需的数据;元数据是描述数据仓库中数据结构和构建方法的数据。1.4元数据分类按照用途的不同分为技术元数据(TechnicalMetadata)和业务元数据(BusinessMetadata)两大类。-技术元数据存储关于数据仓库系统技术细节的数据,是用于开发和管理数据仓库使用的数据,它保证了数据仓库系统的正常运行;-业务
6、元数据从业务角度描述数据仓库中的数据,它提供介于使用者和实际系统之间的语义层,使得数据仓库使用人员能够“读懂”数据仓库中的数据。1.5数据粒度定义粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。细化程度越高,粒度级就越小;相反,细化程度越低,粒度级就越大。粒度深深地影响存放在数据仓库中数据量的大小,同时影响数据仓库所能回答的查询类型。在数据仓库中的数据粒度与查询的详细程度之间要做出权衡。1.5数据粒度当提高粒度级别时,数据所能回答查询的能力会随之降低。换言之,在一个很低的粒度级别上,几乎可以回答任何问题,但在高
7、粒度级别上,数据所能处理的问题的数量是有限的。1.6数据模型数据模型是对现实世界的一种抽象,根据抽象程度的不同,可形成不同抽象层次上的数据模型。与数据库的数据模型相类似,数据仓库的数据模型也分为三个层次:概念模型逻辑模型物理模型数据仓库的数据模型星型结构雪花型结构星型雪花型结构数据仓库的数据=事实数据+维度数据不论是星型、雪花型或者是星型雪花型结构都是以事实表为中心。不同点只是在外围维度表相互之间的关系不同而已。1.6数据模型将原来业务系统的数据经过抽取、转换、加载到数据仓库所在的中心存储库的过程称为ETL(Extract
8、ion,TransformationandLoading)过程,制定这个过程的策略称之为ETL策略,而完成ETL过程的工具则是ETL工具。相对于数据仓库中的表而言,业务系统数据库中的表称为源表,业务系统数据库称为源数据库,数据仓库中所有的数据都来自于业务系统数据库。在打造一个数据仓库的过程中,ETL的实
此文档下载收益归作者所有