欢迎来到天天文库
浏览记录
ID:48010241
大小:358.98 KB
页数:5页
时间:2020-01-14
《基于元数据驱动的通用数据迁移工具.pdf》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、大庆石油学院学报第35卷第1期2011年2月JOURNAIOFDAQINGPETROLEUMINSTITUTEVo【_35No.1Feb.2011基于元数据驱动的通用数据迁移工具任庆东,李天阳,袁满,许翰文(东北石油大学计算机与信息技术学院,黑龙江大庆163318)摘要:为解决企业数据模型升级需要在数据库间实现数据迁移的问题,创建基于元数据驱动的通用数据迁移工具,分析数据抽取、转换和加载体系结构,采用元数据驱动技术,结合企业数据迁移需求,定义数据迁移通用框架模型体系;处理映射模式的元数据表示,实现用元数据描述与存储映射模式.该方法实现用元数据驱动数据抽取
2、、转换和加载引擎功能,技术与功能在中国石油数据中心大型数据迁移中应用,取得良好效果.关键词:数据迁移;元数据驱动;数据抽取、转换和加载体系;映射模式;元数据映射中图分类号:TP311文献标识码:A文章编号:1000—189l(2O11)01—0076—050引言随着信息技术的发展,数据集成速度加快,数据中心规模变大,需要向数据中心迁移数据的业务数据库数量增多,大型数据库的数据迁移问题成为信息集成的关键.数据迁移主要包括采用数据库自带的数据迁移工具和编写点对点数据迁移程序2种方式口],在实现多对一大型数据库数据迁移中存在不足之处,如白带工具能够很好完成数据
3、模型同构的数据库数据迁移任务,但是对于数据模型差异较大、数据表过多的数据迁移任务时,需要编写大量辅助程序,不能满足实际应用;编写迁移程序需要大量重复编码,同时要求开发人员熟悉业务数据库的数据结构及业务规则,加大工具实现难度.通过对元数据驱动技术以及传统数据抽取、转换和加载体系结构(ExtractionTransformationLoading,简称ETL)的研究,提出基于元数据驱动技术[3的针对大型数据库之间通用数据迁移框架,实现数据迁移.传统ETL体系结构中的元数据主要描述数据源的位置及属性、源数据到目标数据的对应规则迁移准备工作等,缺少对数据转换行为
4、的描述,数据转换过程基于具体数据库使用代码实现,导致ETL工具的灵活性不高,不易维护.基于映射模式元数据的ETI体系结构使用以转换处理为描述中心的元数据,使处理对象脱离代码,通过调用转换函数实现数据转换,变更数据转换规则或处理对象无需修改代码,只需重新定制元数据,使维护方便且具有良好的扩展性.该框架实现的工具具有优越性:(1)框架基于数据字典定制元数据,通过选择不同的数据字典定制映射模式元数据能够实现不同专业数据库到数据中心数据库的数据迁移,具有一定通用性;(2)框架使用转换函数元模型,不同数据模型间数据迁移过程,映射模式繁多,当出现一种新的映射模式只需
5、编写单独转换函数,同时在转换函数元模型中添加函数接口及参数信息,定制对应字段间映射模式元数据后,即可使用新映射模式实现数据转换,无需更改工具代码;(3)使用元数据驱动方式实现ETL功能,维护工作大部分为修改元数据,使维护简化.1元数据映射模式原理基于映射模式元数据驱动的ETI过程框架及实现工具原理:确定源数据库中实体的某一个属性或属性集到与其对应的目标数据库中实体属性或属性集的对应关系(映射模式分类)Ⅲ,对源数据库中某一记录下数据利用变换、运算或统计等处理过程(映射函数)转换为对应目标数据库中记录下数据,转换过程中为提高映射函数的重用性,将不同属性下相同
6、映射模式的函数处理过程中处理对象与可变数据抽象为映收稿日期:2010—10—11;审稿人:刘贤梅;编辑:任志平,张兆虹基金项目:黑龙江省自然科学基金项目(11541008)作者简介:任庆东(196O~),男,副研究员,主要从事计算机控制、数据集成等方面的研究·76·第1期任庆东等:基于元数据驱动的通用数据迁移工具射函数的参数.将描述源实体与目标实体属性信息,属性映射模式、映射函数、参数值信息及源实体的数据抽取、目标实体的数据加载方式信息集合作为映射模式元数据,用其描述数据库间映射模式,设计用于支撑映射模式元数据定制的元模型,通过元模型定制数据库之问的映射
7、模式元数据,用映射模式元数据驱动ETL功能模块,完成数据的抽取、转换、加载,实现大型数据库间的数据迁移.2设计方案基于元数据驱动的通用数据迁移工具随数据集成需求变化而改变使用环境,工具框架与元数据库设计的重点在于完整、有效地表示数据库及其表结构信息、映射函数及参数信息、数据抽取与加载方式信息;整合制定制流程中形成映射模式元数据;使用映射模式元数据驱动实现不同环境下数据迁移.2.1框架结构工具框架结构见图1.(1)数据源:数据迁移提圄园供源数据的数据库或文件.可以是ORACIE或其他关系型数据库、纯文本等.(2)目标库:存储从源数据库中抽取出来并经过数据转
8、换后的数据库或文件.数据源(3)通用数据访问接口:采用OLEDB[。和oDBC[
此文档下载收益归作者所有