数据仓库与数据挖掘的决策支持

数据仓库与数据挖掘的决策支持

ID:39711351

大小:1.61 MB

页数:135页

时间:2019-07-09

数据仓库与数据挖掘的决策支持_第1页
数据仓库与数据挖掘的决策支持_第2页
数据仓库与数据挖掘的决策支持_第3页
数据仓库与数据挖掘的决策支持_第4页
数据仓库与数据挖掘的决策支持_第5页
资源描述:

《数据仓库与数据挖掘的决策支持》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、第5章数据仓库与数据挖掘的决策支持基本原理知识发现与数据挖掘数据仓库系统联机分析处理数据仓库与数据挖掘的决策支持数据仓库的支持系统5.1数据仓库的基本原理数据仓库的兴起1.“数据太多,信息不足”的现状2.异构环境的数据源据美国《幸福》杂志所列的全球2000家大公司中已有90%将Internet网络和数据仓库这两项技术列入企业计划。数据仓库是1995年开始盛行起来的。5.1.1数据仓库的概念(1)W.H.Inmon在《建立数据仓库》一书中,对数据仓库的定义为:数据仓库是面向主题的、集成的、稳定的,不同时间的数据集合,用于支持经营管理中决策制定

2、过程。1、数据仓库的概念(2)SAS软件研究所定义:数据仓库是一种管理技术,旨在通过通畅、合理、全面的信息管理,达到有效的决策支持。1、数据仓库的概念传统数据库用于事务处理,也叫操作型处理,是指对数据库联机进行日常操作,即对一个或一组记录的查询和修改,主要为企业特定的应用服务的。用户关心的是响应时间,数据的安全性和完整性。数据仓库用于决策支持,也称分析型处理,用于决策分析,它是建立决策支持系统(DSS)的基础。操作型数据(DB数据)与分析型数据(DW数据)之间的差别为:2、数据仓库特点(1)数据仓库是面向主题的主题是数据归类的标准,每一个主

3、题基本对应一个宏观的分析领域。例如,银行的数据仓库的主题:客户DW的客户数据来源:从银行储蓄DB、信用卡DB、贷款DB等三个DB中抽取同一客户的数据整理而成。在DW中分析客户数据,可决定是否继续给予贷款。2、数据仓库特点(2)数据仓库是集成的数据进入数据仓库之前,必须经过加工与集成。对不同的数据来源进行统一数据结构和编码。统一原始数据中的所有矛盾之处,如字段的同名异义,异名同义,单位不统一,字长不一致等。将原始数据结构做一个从面向应用到面向主题的大转变。2、数据仓库特点(3)数据仓库是稳定的数据仓库中包括了大量的历史数据。数据经集成进入数据

4、仓库后是极少或根本不更新的。(4)数据仓库是随时间变化的数据仓库内的数据时限在5~10年,故数据的键码包含时间项,标明数据的历史时期,这适合DSS进行时间趋势分析。而数据库只包含当前数据,即存取某一时间的正确的有效的数据。2、数据仓库特点大型DW是一个TB(1000GB)级数据库问题(一般为10GB级相当于一般数据库100MB的100倍)需要一个巨大的硬件平台需要一个并行的数据库系统最好的数据仓库是大的和昂贵的。面向主题稳定随时间变化集成特点数据仓库特点近期基本数据:是最近时期的业务数据,是数据仓库用户最感兴趣的部分,数据量大。历史基本数据

5、:近期基本数据随时间的推移,由数据仓库的时间控制机制转为历史基本数据。轻度综合数据:是从近期基本数据中提取出的,这层数据是按时间段选取,或者按数据属性(attributes)和内容(contents)进行综合。高度综合数据层:这一层的数据是在轻度综合数据基础上的再一次综合,是一种准决策数据。5.1.2数据仓库结构数据仓库工作范围和成本常常是巨大的。开发数据库是代价很高、时间较长的大项目。提供更紧密集成的数据集市就应运产生。目前,全世界对数据仓库总投资的一半以上均集中在数据集市上。5.1.3数据集市(DataMarts)数据集市(DataMa

6、rts)是一种更小、更集中的数据仓库,为公司提供分析商业数据的一条廉价途径。DataMarts是指具有特定应用的数据仓库,主要针对某个应用或者具体部门级的应用,支持用户获得竞争优势或者找到进入新市场的具体解决方案。数据集市概念独立数据集市(IndependentDataMart)从属数据集市(DependentDataMart)数据集市的种类1、规模是小的2、特定的应用3、面向部门4、由业务部门定义,设计和开发5、由业务部门管理和维护6、快速实现7、购买较便宜8、投资快速回收9、工具集的紧密集成10、更详细的、预先存在的数据仓库的摘要子集1

7、1、可升级到完整的数据仓库数据集市的特性元数据是数据仓库的重要组成部分。元数据描述了数据仓库的数据和环境,即关于数据的数据(metadata)元数据包括四种元数据。5.1.4元数据Himart元数据数据仓库使用数据仓库映射数据模型数据源它是现有的业务系统的数据源的描述信息。这类元数据是是对不同平台上的数据源的物理结构和含义的描述。具体为:(1)数据源中所有物理数据结构,包括所有的数据项及数据类型。(2)所有数据项的业务定义。(3)每个数据项更新的频率,以及由谁或那个过程更新的说明。(4)每个数据项的有效值。1、关于数据源的元数据数据仓库的数

8、据模型是星型模型。通常企业数据模型被用作建立仓库数据模型的起始点,再对模型加以修改和变换。2、关于数据模型的元数据这类元数据是数据源与数据仓库数据间的映射。当数据源中的一个数据项

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。