欢迎来到天天文库
浏览记录
ID:21497235
大小:31.00 KB
页数:9页
时间:2018-10-22
《核电行业实时etl系统的设计与实现》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、核电行业实时ETL系统的设计与实现 摘要本文以核电企业的数据仓库需求为切入点,为了满足决策支持类应用对数据及时性的要求,提出了一种具有数据缓存机制的实时数据仓库ETL架构,该架构能够均衡系统开销,在突发大数据量的情况下保持决策支持类应用的高服务质量(QoS)。该ETL架构已基于Informatica产品开发实现,其合理性与有效性得到了验证。 【关键词】实时数据仓库ETL数据缓存 1引言 随着我国核电信息化水平的提高,核电企业已经进入到流程特征量化、绩效驱动、以信息技术为依托的发展阶段。数据仓库是管理信息并分析利用的最有效的方式,可为核电企业进行各级流程的绩效评估,改善决策过程
2、,并便于同行对标。 通常,ETL过程是以“脱机”方式执行的。数据以批传输的方式从源中抽取,进行转换,清洗,再加载到数据仓库。这一组活动会在一个专用的时间窗口中执行,通常是在夜间,以防给源系统带来过大的工作负荷。然而,核电企业的部分应用对数据仓库中数据的及时性有很强的要求,例如缺陷预警、辐射防护、运行数据分析等领域的OLAP、数据挖掘、可视化报表等应用,它们可能只能接受分钟级甚至秒级的数据延迟。单纯靠提高ETL更新频率来满足这类需求是不可行的,因为频繁批传输会给源系统或数据仓库带来过大的系统开销,而且随着数据量的增大,批传输将会无法在更新间隔内做完。 在此情况下,有必要引入实时ET
3、L。可将源数据分类为两组。第一组使用快速,高选择性,非阻塞的ETL,使该部分数据近乎实时的更新,以便快速、实时的支持决策过程。其余的源数据可以在夜间进行统一的批传输更新。 另外,核电行业对信息系统的服务质量(包括可用性、数据及时度、吞吐量、查询响应时间等)有着更高的要求,在设计实时ETL系统的过程中,必须考虑大数据量和大系统开销的情形,保持源系统和决策支持类系统的高服务质量。 2实时数据仓库的ETL架构 本文提出的实时数据仓库ETL架构由以下元素组成: (1)数据源,产生数据的系统,这些数据会填充到数据仓库; (2)位于中间的数据处理区域(DataProcessingAre
4、a,DPA),对产生的数据进行清洗和转换; (3)数据仓库(DW)。该架构如图1所示。 每个源可以认为是由一个数据存储体(常规数据库、文件等)和一个业务数据管理系统(DBMS、某应用程序)组成。发生在源端的变化首先会被识别是否与ETL过程相关,随后会向数据仓库传输。每个源都设有一个源数据流监控器(SFlowR)模块,负责识别相关的变化,并定期或以适当的间隔将变化向数据仓库传输。 数据处理数据流监控器(DPFlowR)模块负责决定由哪个源发送数据,一旦源发送数据,数据处理区域中的工作流会接收它,这些工作流清洗数据并按数据仓库的格式转换数据。数据处理区域还可以有多种职能: (1)
5、兼顾SFlowR职能,减轻源的负荷; (2)也可承担数据仓库数据流监控器(WFlowR)的职能(在数据仓库无法处理源产生的数据流量的情形); (3)可以执行诸如检查点、准备汇总和QoS管理等任务。传入数据也可以暂存到适当的暂存模块,以使DPA能满足所有工作流的吞吐量。 一旦所有转换流程结束,数据可向数据仓库中装载。WFlowR根据终端用户提交查询的工作负荷,以及对数据及时度、吞吐量、查询响应时间等QoS的要求,将DPA的?稻荼嗯挪⒋?送到数据仓库。 数据仓库(DW)由不同类型的元素构成: (1)事实表(Fact),包含用户主要关注的现实中事件或事实的记录, (2)维度表(
6、DIM),包含解释事实不同方面信息的参考记录, (3)各种类型的索引(INDX),用来加快查询处理的速度, (4)物化视图,包含最终提交给用户的汇总信息。物化视图允许抽取各类计算过一次的汇总信息,加以存储,以便进行检索、查询和定期更新,并反映一个或多个事实表的当前状态。 在理想状况下,源,数据处理区和数据仓库都能够在给定的时间窗内处理所有的数据。由于许多可能的原因,如用户查询频率高,更新频率高,转换和清洗阶段某些部分的开销大,甚至是运行过程中架构内某部分出现故障,使其在实际情况中不成立。于是,在实时ETL的情况下,为确保服务质量,上述组件需要带有辅助结构,来缓解数据频繁刷新的工
7、作负荷。为此,实时ETL架构中增加了数据暂存节点。这些节点保留部分的传输数据,以备后处理。故数据流监控器中需要有一个简单的选择机制来决定哪些数据要实时的被ETL工作流处理,哪些会进入数据暂存,使其在数据仓库的空闲期处理。 出于这些考虑,设计了一个工作在脱机模式下的补偿模式。规划了数据暂存中的数据被处理并载入数据仓库的过程。如图2所示。 3实时ETL的技术选择 实时数据仓库架构中的各部件,如抽取器、SFlowR、DPFlowR、DPA、WFlowR、数
此文档下载收益归作者所有