基于异构数据抽取清洗模型的元数据的研究.pdf

基于异构数据抽取清洗模型的元数据的研究.pdf

ID:54367386

大小:190.96 KB

页数:4页

时间:2020-04-29

基于异构数据抽取清洗模型的元数据的研究.pdf_第1页
基于异构数据抽取清洗模型的元数据的研究.pdf_第2页
基于异构数据抽取清洗模型的元数据的研究.pdf_第3页
基于异构数据抽取清洗模型的元数据的研究.pdf_第4页
资源描述:

《基于异构数据抽取清洗模型的元数据的研究.pdf》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、基于异构数据抽取清洗模型的元数据的研究邓莎莎陈松乔(中南大学信息科学与工程学院,长沙410083)摘要异构数据的抽取和清洗是企业内外异构信息统一的必由之路。基于此,该文以自行开发的ETL工具为背景,分析了异构数据抽取清洗模型的结构以及实现方式,并集中论述了其中元数据的结构。关键词元数据数据清洗数据仓库文章编号1002-8331-(2004)30-0175-03文献标识码A中图分类号TP311ResearchonMetadataBasedonModelofHeterogeneousDataExtractingandC

2、leaningDengShashaChenSonggiao(InformationScienceandEngineeringCoiiegeofCentrai-SouthUniversity,Changsha410083)Abstract:Heterogeneousdataextractingandcieaningisanecessaryapproachtointegrateheterogeneousinformationin-sideandoutsideenterprise.ThispaperregardsETLo

3、fcertaintooiasbackground,anaiysesthestructureandreaiizedmethodofmodeiofheterogenousdataextractingandcieaningbasedonmetadata.finaiiyconcentratesinexpoundingthestructureofmetadata.Keywords:metadata,datacieaning,DataWarehouse1引言负责将来自异构环境的数据在元数据的控制下转换为存储在在当今时代,企业信

4、息化的要求越来越迫切,其中一个很数据仓库准备区中的“干净数据”,供数据仓库构建时使用。结重要的方面就是企业数据的管理,根据“进去的是垃圾,出来的构如图1所示。也是垃圾”这条原理,为了提高决策的准确性和高效性,就要求所管理的数据必须全面、高质量地反映企业的实际情况。数据的全面性就要求异构数据集成系统不仅能集成多个不同数据库系统中的数据,还能集成更多的并非由DBMS管理的,而是分布在各类文件系统中的数据。数据的准确性则是要求获得的数据是一致的、正确的和可靠的[1,2]。然而现实中,企业所拥有的是过去遗留的异构系统,它们

5、不仅数据错综复杂、结构各异,而且在现存系统中数据问题较多,容易造成“脏数据”。这些都严重地影响了决策的正确性,制约了企业生存和进一步的发展。目前,对于数据抽取清洗的研究都包含在对于ETL(Ex-traction,Transformation,Loading)工具的研究中。P.vassiiiadis等人在他们的ETL工具中通过对脚本模式定义来保证异构数据抽取清洗工作的效率[1]。文献[2]中研究人员提出用元数据来控制数据抽取和清洗,其工作重点是解决模式冲突的问题。Er-hardRahm等人对于数据质量的分类进行了深入

6、的研究[3]。国图1基于元数据的异构数据抽取清洗模型结构内,有人利用引擎来控制数据的清洗[3]。从目前的研究看来,在数据抽取和清洗的应用中,元数据是如何获取的,它的结构以2.1数据分析及当数据源、需求等发生变化时元数据是如何更新ETL工作数据分析就是为了找出数据质量问题。数据质量主要有两流等问题都是研究的热点。论文主要结合自行开发的ETL工个方面的问题:一个是单数据源数据质量问题,另一个是多数具,从异构数据抽取清洗模型的角度,对元数据的实际问题加据源的数据交互集成时的数据质量问题。以研究。单数据源数据质量问题主要有

7、4种类型:!数据本身的错误。"数据冗余和重复。#数据之间关联错误。$数据库模式2设计不完善,缺乏一些完整的约束机制[1,3]。多数据源数据质量模型的设计与实现异构数据抽取清洗模型是ETL工具中关键模型之一。它问题主要有2种类型:!异构的数据模式冲突。它可以分为名作者简介:邓莎莎(1979-)女,硕士生,主要研究方向数据清洗和数据集成。陈松乔,教授,博士生导师。计算机工程与应用2004.30175字冲突和结构冲突两种。②数据语义不一致。它是由于数据库3.1元数据的结构及获取方式的设计者对于现实的抽象采用了不同的描述方

8、式,因而会造成(1)环境状况组件同一个事务被表达成了不同的形式或者不同的事务表达为相环境状况组件主要是用于监控网络和源数据的状况。它包同的形式[3,4]。括:网络状态、各种源数据状态、最佳抽取时间。网络状态和各鉴于数据的海量,实现上数据分析采用是数据挖掘的办种源数据状态的数据可以通过定时对网络状况和源数据状况法。首先在元数据中定义以上可能出现的错误类型,接着

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。