欢迎来到天天文库
浏览记录
ID:46611645
大小:72.00 KB
页数:9页
时间:2019-11-26
《ETL集群优化技术探究及实现》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、ETL集群优化技术探究及实现摘要:介绍了ETL功能及其处理技术,探讨了库表及文件抽取方式,数据转换技术策略以及数据加载技术,设计了SQL脚本自动解析获取元数据的实现方法,研究了集群优化技术在ETL数据处理中的应用。关键词:ETL;数据仓库;元数据;集群优化中图分类号:TP311文献标识码:A文章编号:1009-3044(2012)13-2949-04ResearchandImplementationofETLClusterOptimizationTechnologyLILan-you,HUCheng-hao,ZHANGChun-hua(Offi
2、ceofInformationConstructionandManagement,NanjingInstituteofTechnology,Nanjing211167,China)Abstract:TheETLfunctionandprocesstechnologyisintroduced.Theextractiontypeofdatabasetablefile,thestrategyofdataconversionanddataloadingtechnologyareshown.Theimplementationmethodsofmetada
3、taanalysisandobtainingwithSQLscriptautomaticlyaredesigned.ThedeepresearchofclustersoptimizationtechniqueapplicationinETLdataprocessingisinimplementation.Keywords:ETL(Extract,TransformandLoad):datawarehouse;metadata;clusteroptimization1概述随着高校网络的不断发展,学生公寓网络的web访问数据越来越多,基于设备管理系
4、统建设的架构为模板,运用ETL技术将这些数据信息建立目标数据仓库,以挖掘学生人群的网络交互行为及相互关系,兴趣传播及作用关系,给学校领导管理决策提供宏观数据支持,是一件非常有意义的事情。2ETL简介ETL[1]是数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、加载(Load)的简称,作为数据仓库的核心和灵魂,能够按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程,即从数据源系统中获取业务数据,通过数据转换、数据清洗过程,将符合EDM(企业数据模型)的数据加载到数据仓库中。数据仓
5、库的最普遍应用是给企业提供决策,由于ETL在数据仓库搭建过程中花费了大约60%~80%的工作量[2],由此可见,ETL在建立数据仓库系统时中是很关键的问题,可以说ETL过程的执行效率直接决定了企业决策的质量。数据抽取主要是针对分布在不同业务系统中的分散数据,规划需要的数据源和数据定义,在接口规范中明确的定义了数据源系统提供的数据文件的内容、提供周期、提供方式等,ETL的抽取将按照接口规范中定义的方式从数据源系统中通过FTP传输数据文件的方式到数据仓库系统中[3]o数据转换主要是针对数据仓库建立的模型,通过内建的函数库、自定义的脚本以及其它一些扩
6、展方式将数据从业务模型转化到分析模型中。数据转换是将原数据变为目标数据的关键环节,它包括数据格式转换、数据类型转换、数据汇总计算、数据拼接等。数据清洗主要是针对业务系统中的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,通过清洗将有问题的数据先剔除出来,然后根据实际情况作相应的处理[4]。数据加载主要是将符合数据仓库要求的数据加载到数据仓库中。3ETL集群优化3.1ETL功能结构ETL主要功能模块包含数据源模块、数据获取模块、数据处理模块、数据分发及ETL数据调度管理模块,如图1所不O数据源模块负责对数据来源的各个源系统及数据平
7、台访问方式和类型等信息进行维护;数据获取模块负责将数据源提供的接口数据文件或者表接口数据传输到数据仓库系统中,并完成文件级或者表接口数据量的审核,数据获取有FTP获取和数据库链两种方式实现;数据处理模块包含数据转换和数据加载,数据处理模块负责将接口文件或者表接口数据加载到数据仓库中,同时按照一定的接口规则进行转换处理,其具体实现可以采用DATASTAGE工具、存储过程和shell脚本三种处理方式[5];数据分发模块主要完成数据仓库数据与外网系统的接口交互;ETL数据调度管理模块贯穿整个ETL功能模块的各个环节,其数据调度功能主要通过任务调度平台
8、来实现,通过调度任务的参数时间周期、任务参数等配置,自动调用接口DATASTGE工具的作业或者存储过程等完成数处理。ETL子系统的元数据由元数据管理系
此文档下载收益归作者所有