欢迎来到天天文库
浏览记录
ID:46276449
大小:64.50 KB
页数:3页
时间:2019-11-22
《[DW]数据仓库的定义、特征、产生和发展、现状和趋势》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、数据仓库综述一、数据的仓库的产生和发展数据仓库的出现和发展是计算机应用到一定阶段的必然产物。经过多年的计算机应川和市场积累,许多商业企业已保存了人量原始数据和各种业务数据,这些数据真实地反映了商业企业主体和各种业务环境的经济动态。然而山于缺乏集中存储和管理,这些数据不能为本金业进行有效的统计、分析和评估提供帮助。也就是说,无法将这些数据转化成金业有用的信息。70年代岀现并被广泛应用的关系型数据库技术为解决这一问题提供了强冇力的工具。从80年代中期开始,随着市场竞争的加剧,商业信息系统用户已经不满足于用计算机仅仅去管理H复一FI的事务数据,他们更需要的是支持决策制定过程的信息。
2、80年代屮后期,出现了数据仓库思想的萌芽,为数据仓库概念的最终提出和发展打卞了基础。90年代初期,W.H.Inmon在其里程碑式的著作《建立数据仓库》中提出了“数据仓库”的概念,数据仓库的研究和应用得到了广泛的关注。这对处于激烈竞争中的商业企业,有着非同小可的现实意义。二、国内外数据仓库的发展现状和趋势随着各种计算机技术,如数据模型、数据库技术和应用开发技术的不断进步,数据仓库技术也不断发展,并在实际应用中发挥了巨大的作用。IDC在1996年的一次对90年代前期进行的62个数据仓库项目的调查结果表明:进行数据仓库项目开发的公司在平均2.73年的时间内获得了平均为321%的投资
3、回报率。使用数据仓库所产生的巨人效益同时乂刺激了对数据仓埠技术的需求,数据仓库市场正以迅猛势头向前发展:一方面,数据仓库市场需求最越來越大,每年约以400%的速度扩张;另一方面,数据仓库产品越來越成熟,生产数据仓库工具的厂家也越来越多。数据仓库技术及市场将向以下方向发展:1、并行化和可扩展性为提高数据仓库的性能和可扩展能力,数据仓库已趋向并行化。在硬件层次上,已越来越明显地采用多处理器并行结构;在数据库层次上,许多数据库厂商已推出并行产品,以适应数据仓库市场的需要。2、集中化数据仓库项目将越來越人,GartnerGroup预测:到2000年,约有70%的集中化信息管理将依赖于
4、数据仓库市场。3、数据仓库与Internet/Intranet的集成随着Internet/Intranet技术的广泛应用和发展,数据仓库将Internet/Intranet进行很好的集成,即前台是Web服务器,后台是数据仓库系统。4、数据挖掘工具的成熟和广泛使用数据挖掘工具和人工智能代理将是以后5年推动决策支持演变过程的主要力量。5、通用数据库数据仓库将支持多媒体、支持结构化和非结构化数据,即向通川数据库发展,具冇面向对彖的能力。6、数据仓库打包应用数据仓库将集成一些工具和应用,打包推向用户。二、数据仓库的定义数据仓库不是数据的简单堆积,而是从大量的事务型数据库中抽取数据,并
5、将其清理、转换为新的存储格式,即为决策目标把数据聚合在一种特殊的格式中。公认的数据仓库之父W.H.Inmon将其定义为:“数据仓库是支持管理决策过程的、面向主题的、集成的、随时间而变的、持久的数据集合。”三、数据仓库的特征1、数据仓库的数据是面向主题的与传统数据库面向应丿IJ进行数据组织的特点相对应,数据仓库屮的数据是面向主题进行组织的。什么是主题呢?首先,主题是一个抽象的概念,是较高层次上企业信息系统中的数据综合、归类并进行分析利用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对彖。面向主题的数据组织方式,就是在较高层次上对分析对彖的数据的一个完整、—•致
6、的描述,能完整、统一地刻划各个分析对象所涉及的金业的各项数据,以及数据之间的联系。所谓较高层次是相对面向应用的数据组织方式而言的,是指按照主题进行数据纽织的方式具有更高的数据抽象级别。2、数据仓库的数据是集成的数据仓库的数据是从原有的分散的数据库数据抽取來的。在前面的表1中我们已经看到,操作型数据与DSS分析型数据Z间差别甚大。第一,数据仓库的每一个主题所对应的源数据在原有的各分散数据库屮有许多重复和不一致的地方,且来源于不同的联机系统的数据都和不同的应用逻辑捆绑在一•起;第二,数据仓库屮的综合数据不能从原有的数据库系统直接得到。因此在数据进入数据仓库Z前,必然耍经过统一为综
7、合,这一步是数据仓库建设屮最关键、最复杂的一步,所要完成的工作有:(1)要统一源数据中所有才盾之处,如字段的同名异义、异名同义、单位不统一、字长不一致,等等。(2)进行数据综合和计算。数据仓库中的数据综合工作可以在从原有数据库抽取数据时生成,但许多是在数据仓库内部生成的,即进入数据仓库以后进行综合生成的。3、数据仓库的数据是不可更新的数据仓库的数据主要供金业决策分析之用,所涉及的数据操作主要是数据查询,一•般情况下并不进行修改操作。数据仓库的数据反映的是-•段相当长的吋间内历史数据的内容,是不同时点的数
此文档下载收益归作者所有