多数据库系统数据仓库集成技术应用研究

多数据库系统数据仓库集成技术应用研究

ID:11006905

大小:55.50 KB

页数:5页

时间:2018-07-09

多数据库系统数据仓库集成技术应用研究_第1页
多数据库系统数据仓库集成技术应用研究_第2页
多数据库系统数据仓库集成技术应用研究_第3页
多数据库系统数据仓库集成技术应用研究_第4页
多数据库系统数据仓库集成技术应用研究_第5页
资源描述:

《多数据库系统数据仓库集成技术应用研究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、多数据库系统数据仓库集成技术应用研究1.绪论1.1研究背景针对基于集中式数据仓库环境的相关课题研究相对较多,综合政策、经济、技术等诸多因素,在实际应用中也更倾向于集中式数据仓库环境。然而在信息增长迅猛的今天,数据呈现出海量式和分布式的特点,这使得集中式数据仓库在数据分析处理能力方面越来越有局限性。基于分布式数据仓库具有维护成本低、数据整合性强、高容错力、高效性和存储空间几乎不受限的特点,分布式数据仓库环境针对一些特殊情况(如业务数据分布于不同物理节点)更具优势,典型的例子有银行和电子商务平台。课题是基于SaaS模式,面向小微企业用户的进销存

2、管理平台。由于平台中的企业用户之间相互独立但业务模式相同,因此平台为企业各自创建独立的表空间且表空间中对应的业务表结构相同。为满足平台和企业两级不同的数据分析需求,需要创建数据仓库作为分析的基础。企业级的经营分析面向企业内部,分析主题相对多样化且分析粒度相对较低;平台级经营分析是面向平台中的所有注册企业,分析主题主要面向销售且分析粒度相对较高。集中式的数据仓库己无法满足此类平台的应用需求,因此对分布式数据仓库环境下的二级数据仓库及其相关技术进行研究具有重要意义。.1.2国内外研究现状近两年来基于分布式数据仓库所釆用的相关技术主要是利用ffi

3、ve搭建数据仓库⑴。但由于Hadoop目前未提供分析工具,因此在应用中实现分析结果可视化稍显不便。采用数据库技术可结合较成熟的开源多维分析、展示工具(如Mondrian和JPivot),避免在应用展示层进行复杂的开发工作。特别的,针对典型的分布式数据仓库形式(包含全局数据仓库和分布于各节点的局部数据仓库)一一两级数据仓库结构的相关研究成果主要包括:熊中阳提出使用多级数据仓库体系结构结合双通道算法避免数据不一致问题;叶政提出了针对服饰行业销售决策支持系统的分布式数据仓库模型[3],给出实现局部数据仓库向全局数据数据仓库传输数据的技术方案,但并

4、没有给出两级数据仓库间数据传输的具体策略、时间效率及正确性分析。结合课题应用背景,为便于理解,将上述全局数据仓库对应称为平台级数据仓库,局部数据仓库对应称为企业级数据仓库。企业级数据仓库向平台级数据仓库进行数据更新的策略大致可以分为两种:一是由平台级数据仓库主动从企业级数据仓库中提取数据;二是由企业级数据仓库完成数据更新后向平台级数据仓库推送数据。两种策略均涉及到跨数据库服务器间的数据交互。策略一的特点是由平台级数据仓库根据特定条件来决定下级企业仓库数据传输的优先级,各数据更新任务间几乎不会有冲突,理论上数据丢失概率相对较小,杨一平提出利用

5、定时轮循更新的策略解决分布式数据仓库调度中存在的灵活性差、实时性弱、职能化程度低等问题[4]。但此方法的弊端是各级数据仓库需额外维护用于更新通知的视图表同时增加了两级数据仓库间的通信量。类似可参考相关研究中提出的封锁协议和算法调度策略二的特点是:在各企业级数据仓库并发地从各自业务数据库中抽取数据的条件下,更新完毕后即刻向平台级数据仓库推送,连贯性强、网络通信频率低且并发度也相对较高,但不利因素是极容易造成各更新任务间的冲突,刘培玉从数据存储的角度提出了解决冲突问题的思路[8]。..2.相关理论与技术研究2.1数据仓库相比于保存当前业务数据并

6、以满足事务处理为目标的数据库,数据仓库是存储面向决策支持和用于联机分析的所有类型数据的集合,也可以将其看做是商业智能(BusinessIntelligence,BI)的基础。它的主要特点可概括如下:主要面向历史数据且用于决策分析、数据仓库中是大量数据的集合且具有整合性、对数据仓库的操作需根据当时的决策需求确定、存储的数据需永久保存根据上述特点可知,对于数据仓库的构建方法将不同于数据库的建立。由于数据仓库中的数据主要来自于多个业务数据库,且作为商业智能分析的基础,它要同时保存当前数据和历史数据。随着历史数据的积累后续的数据分析也会更有价值,对

7、于所有存储的数据必须永久保存。因此在面对海量的且具有整合性的数据时,需要考虑数据仓库的存储容量和可扩展性。由于对数据仓库的操作具有不确定性,也决定了构建数据仓库时多采用增量式方法。分布式数据仓库通过网络将不同物理节点进行连接,进而从逻辑上达到数据集成共享的效果。由于该结构可利用网络解决信息孤岛问题且可对用户随时提供访问接口而不影响原有访问,因此对于业务数据分布在不同物理节点、需要对所有物理节点上的数据进行全局应用分析的平台更适宜釆用分布式结构。根据数据管理系统的异同又可将分布式数据仓库划分为异构型分布式数据仓库和同构型分布式数据仓库。.2.

8、2数据库链接数据库链接(DatabaseLink,DELINK)可以理解为在分布式数据库应用环境中两台数据库服务器之间的通信桥梁,是远程数据库在本地数据库的映射。一般将用户正在登

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。