金融投资数据仓库中数据融合的设计与实现

金融投资数据仓库中数据融合的设计与实现

ID:27484232

大小:1.99 MB

页数:69页

时间:2018-12-04

金融投资数据仓库中数据融合的设计与实现_第1页
金融投资数据仓库中数据融合的设计与实现_第2页
金融投资数据仓库中数据融合的设计与实现_第3页
金融投资数据仓库中数据融合的设计与实现_第4页
金融投资数据仓库中数据融合的设计与实现_第5页
资源描述:

《金融投资数据仓库中数据融合的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、第一章引言1.1研究背景及意义在激烈的市场竞争中,信息对于企业的生存和发展起着至关重要的作用,表达信息的数据随着时间的增加和业务的发展而不断膨胀。如何从这样复杂的数据环境中得到有用的决策数据是一个迫切需要解决的问题。据统计,数据量每2-3年时间就会成倍增长,这些数据蕴含着巨大的商业价值,而企业所关注的通常只占总数据量的2%-4%左右。因此,企业仍然没有最大化地利用已存在的数据资源,以至于浪费了更多的时间和资金,也失去了制定关键商业决策的最佳契机。随着金融行业的蓬勃发展,金融数据的种类越来越多,金融信息越来越庞杂,为了能够将海量数据中有价值的信息找出来,并将其转换为可以帮助企

2、业进行分析决策的数据,并储存下来,成为了目前金融行业数据仓库建设中的重中之重。于是,数据提供商如何通过各种技术手段,把数据转换为信息、知识,已经成了提高其核心竞争力的主要瓶颈。随着分布式结构的成熟、数据库技术的提高和数据处理技术的发展,数据仓库(Datawarehouse,DW)和决策支持系统(DecisionSupportSystem,DSS)应运而生[1]。数据仓库是计算机和数据应用发展到一定阶段的必然产物。数据仓库(DataWarehouse,DW)是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程,是在业务系统的基础上发展而来的。其内部存储的

3、数据来自于事务处理的业务系统和外部数据源。然而,各个金融的操作型业务系统往往是面向不同应用、由不同开发商开发的,因而数据的存储结构、存储平台和系统平台具有很大的差异性,如何将这些异构的原始数据有效地集成到数据仓库中,是在构建金融数据仓库的过程中所面临的一个难题,这需要解决数据的一致性和集成化问题,并且实现传统平台和环境的数据采集和数据转换。这就是数据的抽取、转换和加载过程,即ETL(ExtractTransformLoad)[2]。ETL作为数据仓库系统的核心技术之一[3],即数据抽取(Extract)、转换(Transform)、清洗(Cleaning)、装载(Loadi

4、ng)等过程,是构建数据仓库的重要环节。ETL过程就是数据流动的过程,从不同的数据源流向不同的目标数据库(或文件)。ETL同时提供数据质量的管理,并且贯穿整个数据仓库解决方案的全过程,完成整个系统的数据处理与调度。ETL是数据仓库建设过程中的主要部分,其效率1的高低、数据质量的好坏直接影响到决策分析的有效性。一个设计良好,功能强大的ETL工具对于构建一个数据清洁,结构良好的数据仓库有着重要意义[4]。所以能否搭建一个好的可以应用于金融数据仓库中的ETL系统,已经成为了金融数据仓库能否建设成功的关键一环。1.1数据融合的现状概述数据集成的研究[5]始于七十年代中期,其发展大致

5、可分为两个阶段:第一阶段,以多数据库系统的研究为主。这方面的研究基本上可分为三大类:(1)采用物理上分布,逻辑上集中的系统结构。系统有全局的模式,但是各数据库结点缺少自治性,难以管理和集成;(2)Mcelod于八十年代中期提出的联邦式数据库系统的概念。这是一种逻辑上和物理上都分布的结构,每个结点有自己的联邦模式,而不是唯一的全局数据模式。由于不再受制于全局模式,结点的自治性得到加强,数据库系统的集成、扩充和重新配置也较为方便和自然,但是数据库之间的通信受限制;(3)Litwin等人倡导的多库语言数据集成方法。这种系统既无统一的全局模式,也无局部的联邦,节点自治性更强,但用户

6、必须接受一种新的数据语言,且透明性较差。第二阶段,进入九十年代中期,随着计算机网络的普及和万维网的出现,传统的数据集成技术己无法适应人们获取更多数据的需求[6],人们要求数据集成系统不仅能集成数据库中的数据,而且能集成数据库外的数据,如XML数据;不仅能集成传统格式数据,而且能集成多媒体数据;不仅能集成已有数据源中的数据,而且能集成随时加入新数据源中的数据。也就是说,数据集成的研究必须具有可扩展性,可以实现数据源的“即插即用”,于是诞生了“通用异构数据源集成”的概念。目前国内对通用数据集成的研究几乎属于空白[7],一部分的数据仓库系统是设计与其应用背景相关的、专用的数据集成

7、工具,只能在其具体的业务背景下使用,另一部分则是直接编写脚本来实现对数据的抽取、转换和加载。无论是上面提到的哪一种,他们都有一个共同的缺点,那就是灵活度低,设计一个ETL过程的周期长,浪费大量的人力、物力。此外,还有一些用于异构数据库系统的转换工具,但是这些工具的功能简单,不能满足对于数据的清洗、转换等一系列复杂的功能要求。在学术界很多学者提出了很有建树的方法,如基于视图监视的数据集成技术,基于CORBA的数据集成技术,基于XML的数据集成技术,基于消息中间件的2数据集成技术等。国外对数据仓库相关技术的研究更加全面

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。