开源etl系统分析与设计实现

开源etl系统分析与设计实现

ID:32064477

大小:1.46 MB

页数:52页

时间:2019-01-31

开源etl系统分析与设计实现_第1页
开源etl系统分析与设计实现_第2页
开源etl系统分析与设计实现_第3页
开源etl系统分析与设计实现_第4页
开源etl系统分析与设计实现_第5页
资源描述:

《开源etl系统分析与设计实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库

1、湖北工业大学硕士学位论文1.1ETL现状第1章引言BI运作所依靠的信息系统是一个由传统系统、不兼容数据源、数据库与应用所共同构成的复杂数据集合,各个部分之间不能彼此交流(文献“3)。从这个层面看,目前运行的应用系统是企业在花费了很大精力和财力构建的、不可替代的系统,尤其是系统的数据。而新建的BI系统目的就是要通过数据分析来辅助自己决策,恰恰这些数据的来源、格式不一样,导致了系统实施、数据整合的难度。此时,企业非常希望有一个全面的解决方案来解脱自己的困境,解决数据一致性与集成化问题,从而能够从所有传统环境与平台中采集数据,并利用一个单一解决方案对其进行高效的转换。这个解决方案

2、就是ETL(Extract,TransformandLoad)。通常情况下,企业的数据源分布在各个子系统和节点中,利用ETL将各地方业务系统上的数据,通过自动化FTP或手动控制传到UNlX或NT服务器上进行数据获取、转化处理,然后存储到数据仓库。因为现有业务数据源多,保证数据的一致性,真正理解数据的业务含义,跨越多平台、多系统整合数据,并最大可能地提高数据的质量,迎合业务需求不断变化的特性,这是ETL技术的关键所在。可以肯定的是,ETL贯穿整个BI解决方案的全过程,完成整个系统的数据处理与调度。数据获取数据获取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,

3、规划需要的数据源及数据定义,并进一步通过这些数据源获取希望的数据。确定如何获取或查询源数据并非易事,因为它往往存储在多个地方,可能是一个RDMS、一个文本文件、一个Excel文件、一个DBF文件或其他类型文件。例如:在移动的经营分析系统中,数据抽取的数据源是BOSS系统、oA系统等,而为了保证生产系统稳定地运行,ETL所抽取的数据就变成了对数据文件的处理。数据传输数据传输是通过网络负责把远程的数据文件传输到本地目录下。在实施中,它的步骤包括:初始化参数表,如间隔时间、远程数据文件的存放位置、本地数据文件传路径,并连接到远程主机上;取远程数据文件列表,将其取至本地;根据远程数

4、据文件列表,生成取数据文件的脚本,运行此脚本;完成取数据操作后,湖北工业大学硕士学位论文生成取回数据的列表,根据此列表生产删除远程数据文件的脚本,运行此脚本;将取回的数据文件移到指定文件夹中,并继续监控。数据转换数据转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚地监控数据转换的状态。数据转换是真正将源数据变为目标数据的关键环节,它包括数据格式转换、数据类型转换、数据汇总计算、数据拼接等等。但这些工作可以在不同的过程中处理视具体情况而定,比如,可以在

5、数据获取时转换,也可以在数据加载时转换。数据存储入库数据存储主要是将经过转换的数据加载到数据仓库里面,即入库,操作者可以通过数据文件直接装载或直连数据库的方式来进行数据装载,充分地体现其高效性。统一调度统一调度是ETL中较为重要的功能。它不但可以将源数据加载到数据仓库中,而且还可以更新数据集市。更重要的是,它还可以更新OLAPServer和挖掘模型数据。它在整个BI方案中扮演着总指挥、总调度的角色。其过程如下图所示。图1.1ETL统一调度的过程监控数据监控主要是指监控ETL的整个过程。通过扫描ETL各模块、日志中的关键值,如记录时间等信息与当前的状态作比较,如果超过某一个值

6、,则认为该模块运行可能出现问题,应告警。湖北工业大学硕士学位论文1.2ETL发展下一代ETL=盯L+打包应用集成+实时处理(文献瞻”)大多数ETL工具能自动生成SOL语句,来从关系型数据库中获取数据。但是现在的实时分析和企业应用系统的批量实时处理成为主流,这也就逼迫ETL工具的提供商来扩展他们产品的功能,以适应市场需求的变化。打包应用集成下一代的ETL工具在应用层上使用打包接1:3工具,从打包的企业应用系统中获取数据和商业逻辑。随着ERP、SCM和C删等应用程序的发展,对商业逻辑的理解需要对底层相关数据的存储有所了解。然而直接访问底层的DBMS数据库可能会导致一些问题的发生

7、,而生成的传统SOL又过于简单。这样通过一种特别的方法来获取应用系统的商业逻辑就十分必要了,所以下一代的ETL就为此而诞生了。下一代ETL工具同应用程序的交互来确保所有有用的商业数据都被获取。这些工具是基于应用层的,这就意味着它们除了采用传统的SQL语句之外,还同数据字典和企业知识库紧密相连,这样能加深对数据的理解。应用程序接口同应用程序字典和当前的逻辑源数据相关联,这些接口也针对不同的应用系统产生不同的代码,因为每个不同的系统它们所采用的标准和用户接口都是不同的。如SAP采用ABAP语言,称为RFC协议;而ORA

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。