欢迎来到天天文库
浏览记录
ID:26585714
大小:46.00 KB
页数:12页
时间:2018-11-27
《基于数据仓库数据空间》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、基于数据仓库的数据空间一、数据空间的概念提出(一)从数据库到数据仓库。随着基于计算机管理信息系统的应用普及,用于储存并管理大量有规则数据的管理系统—数据库应运而生。“数据库”的定义是存储在计算机内,大量有结构的,在一定范围内共享的数据集合。但由于传统烟囱型的管理信息系统不断涌现,其中的数据自成体系、相互孤立、结构各异,形成了大量“信息孤岛”。于是人们尝试对数据库中的数据进行再加工,基于数据库技术,利用一系列综合的、面向分析决策的应用环境和应用工具,构建成专业化的数据仓库系统。“数据仓库”的定义是面向主题的、集成的、非易失性的,且随时间不断变
2、化(不同时间)的数据集合,用以支持管理人员的决策。根据这个定义,数据仓库管理系统是按照主题进行信息分类加工;从其他应用系统中抽取、清洗和转化相应的数据结果,经过集成确保其完整性和一致性;按照时间的进程进行积累、汇总和存储;其存储的数据是不允许被修改的,真实反映数据变化过程的历史数据;仍然是一个按照传统管理信息建设模式,专门辅助于分析、决策、预测的管理信息系统。(二)大型综合性管理信息系统的出现。整个组织的管理信息系统一体化。在信息化应用较好的组织中,正逐步开始进行传统管理信息系统的整合,采用SOA架构统一门户、统一权限、统一流程、提升用户体
3、验,传统的数据仓库管理信息系统也将面临整合,需要一种新的构件化的数据仓库服务于整个组织的一体化数据应用;整个组织的信息共享。传统管理信息系统所形成的信息孤岛,采用传统数据仓库技术虽然可以实现一定程度的数据共享,但受到传统数据仓库概念的影响,虽然实现了结果的共享、结果的增值、决策层的应用,但对于原始数据的共享、数据加工的共享、全面数据的查询、生产过程中的数据应用,仍然分布在各应用系统中难以共享;实时交易和数据利用的专业化分工。传统数据仓库技术实现了辅助决策、宏观决策、数据挖掘等高端数据应用的专业化,但对于凭证处理、账务处理、报表处理、汇总统计
4、、分析查询等日常数据应用,仍然依托原有的应用系统,既不能为其减轻系统开销,又存在大量的数据冗余和数据一致性的问题。(三)数据处理过程需要科学化。一是易共享的原始数据。所谓原始数据,在管理信息系统中通常特指以一定的样式和格式,通过人机对话或导入手段获取的,反映管理活动的初始凭证(如登记表、申请表、报销单据等)。这些数据在一定的时间范围内,含意是基本确定的、属性是不易变化的、规则是共同遵守的。而数据处理的中间结果,在各种相关的应用系统中,其结构、口径、属性、规则往往各不相同很难共享;二是源头控制数据质量。数据处理有一个行话“进来的是垃圾,出来的
5、还是垃圾”,强调的就是数据质量的源头控制。但传统数据仓库抽取的都是各类应用系统的中间结果,很难实现对源头数据质量的控制和维护;三是专业化的加工过程。数据的增值加工通常分为分类、汇总、计算、分析等过程,传统数据仓库只考虑后端数据的增值加工,没有考虑数据加工的全过程,造成了对传统应用系统的依赖,难以提升数据加工的专业化程度;四是可管理的处理规则。传统信息系统中数据的加工规则,通常都是以编码形式固化在应用系统中的,不仅难以维护,且用户不可见,更谈不上管理;五是可追溯的血缘关系。“只有可见才可管理,只有可管理才可进步”,为此,数据仓库产品中才会有元
6、数据管理工具,用以跟踪数据变化和增值的关系。但正因为传统数据仓库只抽取与主题有关的,经过加工的历史数据,无法全过程跟踪数据的血缘关系;六是可复用的档案管理。传统的数据仓库只是从各类应用中获取与主题相关的中间结果信息,既不关注这些结果来源的稳定性,也不考虑可复用性(每到应用需要其他主题时,再从应用系统中重新抽取),所以不能形成数据整个生命过程的稳定性和可复用性。如果将信息化的档案管理引入数据仓库,既可以利用数据仓库技术形成一体化的,可全过程管控的档案管理,又可以为数据仓库应用信息的拓展提供可复用的数据源;七是全覆盖的结果展示。数据仓库的展现工
7、具是发展相当快的产品线,但其用途都局限在数据仓库加工结果的展示上,如果将数据仓库的数据源加以拓展,再引入全面数据档案的管理,这些展示工具将能发挥更大的应用效果,并给用户带来更佳的用户体验。社会的发展是有一定规律的,信息社会的产品生产,必然与农业社会、工业社会一样,要经历手工劳动、小作坊制作发展到大规模专业化生产。管理信息系统,这一信息社会的特有产品,必然要进入专业化和规模化的生产,首先是要通过构件的产品化、配置的模块化、规则的自定义、展现的智能化将传统的刚性管理信息系统,转变为柔性的管理信息系统;其次是要将交易和数据处理分开,因为它们的环境
8、需求不一样,前者强调的快速响应,后者强调的高速计算和大容量存储。作为数据处理的代表性产品“数据仓库”,自其诞生开始就因为数据源难以整理、算法要持续发展、结果的应用面窄和使用率低等
此文档下载收益归作者所有