etl和eai之间的关系与区别--

etl和eai之间的关系与区别--

ID:22370285

大小:56.00 KB

页数:7页

时间:2018-10-28

etl和eai之间的关系与区别--_第1页
etl和eai之间的关系与区别--_第2页
etl和eai之间的关系与区别--_第3页
etl和eai之间的关系与区别--_第4页
etl和eai之间的关系与区别--_第5页
资源描述:

《etl和eai之间的关系与区别--》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、ETL和EAI之间的关系与区别>>  一、什么是EAI?  企业的业务流程会同时涉及到多个应用系统,因此要求这些系统能够协同,但接口、架构的不统一往往使得这些本应紧密集成的应用系统成为了一个个信息孤岛。于是,企业应用集成(EnterpriseApplicationIntegration,EAI)技术应运而生,它可以通过中间件作为粘合剂来连接企业内外各种业务相关的异构系统、应用以及数据源,从而满足E-merce、ERP、CRM、SCM、OA、数据库、数据仓库等重要系统之间无缝共享和交换数据的需要。EAI涉及技术广泛,实施复杂。  基本特征  EAI的核心是

2、使用中间件连接企业应用。有多种不同类型的中间件可以提供EAI的功能。在选择EAI中间件时需注意以下的基本特征:  ◆通过中间件将不同的应用连接起来,保证应用的独立性,在不需要修改应用自身的业务逻辑的同时,又解决了数据共享问题。  ◆对核心共享业务数据模型的处理与支持。  ◆实现业务流程自动化。确保各个部门在采用不同的系统的同时可以协同完成同一个工作。  ◆支持应用架构的不断变更。可以方便地重新配制以增加或去除系统而不会影响其它系统。  ◆能够提供实时接口和批处理接口,能够提供同步和异步接口。  ◆必须保证数据的安全,只有目的应用可以读取。  ◆良好的性能

3、和数据吞吐量,并且具有灵活的可扩展性以适应企业的发展。  ◆必须具备恢复机制,当数据传输过程中发生连接中断等异常时可以确保数据的恢复。  ◆对流程管理提供预定义的通用模型与行业模型。  ◆既能够提供实时接口和批处理接口,又能够提供同步和异步接口。  ◆能够提供实时接口和批处理接口,能够提供同步和异步接口。  五大层面  一个完整的EAI解决方案应当包含以下五个层面:  ◆用户交互:实现应用用户界面统一的接入与安全机制,利用门户技术进行构建。  ◆应用连接:通过HUB或总线架构,实现应用与应用之间的连接,完成相关的数据路由与数据格式转换。  ◆业务流程整合

4、:实现业务流程管理,包括工作流管理和自动化流程两个方面。  ◆构建整合:这个层面包含两个部分,一部分是构建与现有应用兼容的新应用,另一部分是对现有资源进行重用以适应新环境的需要。  ◆信息集成:实现数据集成,在异构的数据源之间实现数据层的直接整合。  相关技术  EAI解决方案通常涉及到JCA、JMS、L等多种企业级技术。这些技术都已经成为业界的标准,从而可以最大化地保护客户投资。这些技术既可以被包含在相关产品中供用户透明地使用,也可以由用户自己在应用程序中加以调用。此外,SOA(面向服务的架构)随着各大厂商的追捧而变得炙手可热。虽然SOA本身不是一个全

5、新的概念,但由于)、装载(Load)的过程。它是构建数据仓库的重要环节。数据仓库是面向主题的、集成的、稳定的且随时间不断变化的数据集合,用以支持经营管理中的决策制定过程。数据仓库系统中有可能存在着大量的噪声数据,引起的主要原因有:滥用缩写词、惯用语、数据输入错误、重复记录、丢失值、拼写变化等。即便是一个设计和规划良好的数据库系统,如果其中存在着大量的噪声数据,那么这个系统也是没有任何意义的,因为垃圾进,垃圾出(garbagein,garbageout),系统根本就不可能为决策分析系统提供任何支持。为了清除噪声数据,必须在数据库系统中进行数据清洗。目前有不

6、少数据清洗研究和ETL研究,但是如何在ETL过程中进行有效的数据清洗并使这个过程可视化,此方面研究不多。  本文主要从两个方面阐述ETL和数据清洗的实现过程:ETL的处理方式和数据清洗的实现方法。  1.ETL的处理方式  本文所采用的ETL方法是数据库段区域中的ETL处理方式,它不使用外部引擎而是使用数据库作为唯一的控制点。由于源系统SQLserver2000是关系数据库,它的段表也是典型的关系型表。成功地将外部未修改数据载入数据库后,再在数据库内部进行转换。数据库段区域中的ETL处理方式执行的步骤是提取、装载、转换,即通常所说的ELT。这种方式的优点

7、是为抽取出的数据首先提供一个缓冲以便于进行复杂的转换,减轻了ETL进程的复杂度。  2.ETL过程中实现数据清洗的实现方法  首先,在理解源数据的基础上实现数据表属性一致化。为解决源数据的同义异名和同名异义的问题,可通过元数据管理子系统,在理解源数据的同时,对不同表的属性名根据其含义重新定义其在数据挖掘库中的名字,并以转换规则的形式存放在元数据库中,在数据集成的时候,系统自动根据这些转换规则将源数据中的字段名转换成新定义的字段名,从而实现数据挖掘库中的同名同义。  其次,通过数据缩减,大幅度缩小数据量。由于源数据量很大,处理起来非常耗时,所以可以优先进行

8、数据缩减,以提高后续数据处理分析效率。  最后,通过预先设定数据处理的可视化功能

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。