信息集成——数据仓库架构的扩展

信息集成——数据仓库架构的扩展

ID:10623153

大小:54.50 KB

页数:5页

时间:2018-07-07

信息集成——数据仓库架构的扩展_第1页
信息集成——数据仓库架构的扩展_第2页
信息集成——数据仓库架构的扩展_第3页
信息集成——数据仓库架构的扩展_第4页
信息集成——数据仓库架构的扩展_第5页
资源描述:

《信息集成——数据仓库架构的扩展》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、信息集成——数据仓库架构的扩展

2、第1信息集成的首要指导原则是:在用户看来,他们需要的所有数据,应该好像驻留在一个单一的数据源里一样。信息可能在不同的地方,以不同的语义、格式存储,访问方法各异,因之对信息的检索也变得极为复杂。信息集成技术实质上将信息需求者屏蔽于所有这些复杂性之外。用户或代表用户的应用程序可以通过诸如SQL或XML的标准语言或标准网络服务、内容应用程序界面(API),来对数据进行寻址。这样,用户就可以毫无障碍地查看信息,而不用考虑其物理实现过程。  做到这一点可以有两种方法,或者是

3、两种方法的结合。信息集成的两种主要方法是:  (1)通过数据联合进行分布式数据访问;  (2)将数据移动到对应用程序更有效或更一致的位置,这种方法被称为数据合并或数据安排。  分布式访问对应的是企业信息集成(EII)技术,而数据安排对应的是ETL和复制技术。合起来,这些功能构成了信息集成所需要的核心部分。用最简单的话来解释,联合在一个地方接受一个查询,然后对查询的相应部分进行分布,让它们作用于数据,而不管数据位于何处、以何种形式构成。而数据放置则首先将位于不同地方的数据置于同一处,这样,对用户查

4、询就不需要再进行分布了。两种方法都需要广泛、基本相同的支持功能。  分布式访问和数据安排都需要底层映射、转换和高速缓存功能。另外,由于同样的数据,根据企业不同的需要,有时需要被集中,有时需要被联合,所以两种方法都需要一套相同的转换和映射功能支持,以保持数据在整个企业的一致性。映射提供了理解不同数据片段之间关系的能力。转换通过对不同表述形式的数据进行转换的功能,将相关数据通过映射进行合并。缓存提供了一个暂时的数据存储,该存储能够通过透明地存储一个结果集的拷贝来改善联合的性能。  这些功能依赖于它们

5、所处运作环境的细节描述。这种描述包括商业含义、关系、位置和技术格式等等。简言之,就是元数据。这些元数据必须是全面和一致的,而且从集成项目的发现和定义阶段,直至联合查询操作的整个过程,都必须是有用的。一套全面而具有逻辑一致性的元数据集,不管它们是物化在单个物理存储器中,还是分布于多个存储器中,对信息集成技术来说都是不可或缺的基础。  信息集成与数据仓库的关系  当今的分层式数据架构是建立在下面的前提基础上的:某个最终用户的查询或报表所需的一切数据都应该集中到单个数据中心,或至少集中到使用ETL功能

6、的单个数据仓库环境中。这样做是为了获得数据的稳定性和一致性,以及确保对数据的访问。  但如何使新的需要(更短的数据延迟、更少的非常用数据存储、对远程和多种数据源的访问)获得支持?答案显然是分布式查询方法。联合功能提供了在不事先对所有数据进行物理移动的情况下,保持单一数据仓库或数据中心逻辑特征的可能性。  这是否意味着要抛弃传统的数据仓库方法?绝对不是!联合功能不能也不应该取代整个数据仓库方法。基于众所周知的性能、一致性和自主性方面的原因,完全联合或虚拟的数据仓库并不值得提倡。联合更应该在某些明确

7、而有限的范围内,为解决具体的商务需要,对现有数据仓库进行扩展或增强。因此,数据仓库的信息集成方法既包括数据安排,又包括数据联合。  1.数据访问  当企业需要结合已经存在于数据仓库中的传统的、历史的或分析的数据来访问具体的实时数据条目时,联合功能可以发挥重要作用。某个主要基于数据中心可提供的历史的、合并处理过的数据的最终用户查询或报表,也需要一些最后一分钟的信息。在传统数据仓库架构中,这些实时数据必须(一般通过一个ODS)不断地送入数据中心。这不仅要求数据中心存储大量的这类信息,而且要求ETL环

8、境必须具有持续吞吐几近实时数据的能力。  在许多情况下,联合提供一个更简单也更上乘的解决方案。当最终用户查询被运行时,对特定信息的简单请求可以被发送到运作系统,结果被返回并与从数据中心检索到的信息相连接。可用这种方式访问的运作系统包括各种基于DB2UniversalDatabase的关系和非关系数据库以及IBMQ系列和网络服务。利用此功能,不必在中心存储几近实时的数据或让ETL环境处理这种数据。  请注意一个重要的限定:发送到运作系统的查询应该是简单的,并且运作系统是专为高效处理此类型查询并返回

9、特定信息而设计。这样可限制对运作系统和网络性能的任何影响。  联合查询使用标准SQL,标准SQL允许透明使用现有的业务智能(BI)分析工具。这样,现有的BI工具可访问本地和远程的关系和非关系数据。这保护了对现有工具的商业投资,并能充分利用IT开发人员使用这些工具及其基于SQL模式的技能和专长。联合不限于访问实时数据。任何数据都可以这样访问,而不必把数据存储到数据仓库或中心。众所周知,数据仓库中的很多数据之所以在那里,是因为可能被用到。然而,在很多部署中,许多这样的数据(20%~50%)几乎从不被

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。