欢迎来到天天文库
浏览记录
ID:22726875
大小:67.44 KB
页数:7页
时间:2018-10-31
《一个可扩展的数据质量元模型》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、一个可扩展的数据质量元模型管尊友,冯建华(淸华人学计算机科学与技术系,北京100084)摘要对数据质量的研究现状及大型企业的数据质量应用需求进行了研究,指出了数据质量研究中存在的一些问題,总结了大型企业数据质量的特点。基于这些研究并针对大型企业对高质量数据需求的实际,基于数据质量控制体系,提出了一个可扩展的数据质量控制元模型,该元模型是对企业数据质量模型的抽象,由三层组成:核心层、初始层以及扩展房。根据不同的需求,可以对这三个层进行相应的扩充,以实现不同需求在不同房上得到数据质量保证的目的。目前该模型已经应用于大庆石油信息系统,实际应用表
2、明:该数据质量元模型能够为企业提供了一个完整的、可扩充的数据质量控制功能。中文图法分类号:关键词:数据质量,质量元模型,质量管理OneExtensibleDataQualityMetaModelGUANZunyou,FENGJianhua(DepartmentofcomputerScienceandTechnology,TsinghuaUniversity,BeijingJ00084)AbstractDataqualitystatusandapplicationrequirementofdataqualityforlarge-scalee
3、nterpriseareresearched,someissuesexistedarcpointedout,accordingtotheseresearchandhighqualitydatarequirementforinlarge-scaleenterprise,anextendeddataqualitycontrolmetamodelisproposed,thismodelisanabstractmodelforenterprisedataqualitycontrol,whichiscomposedofkernellevel,ini
4、tiallevelandextensiblelevel.Basedondifferentapplicationrequirements,theselevelscanbeextendedtosatisfydataqualityrequirementindifferentlevel.Now,thisarchitecturemodelhasbeenappliedininformationsystemforDaqing,thepracticalapplicationshows:thisarchitecturemodelcanprovideanin
5、tegratedandextendedfunctionforenterprisedataqualitycontrol.KeywordsDataquality,Qualitymetamodel,Qualitymanagement1前言大型企业信息化建设中,集中反映在数据的规划,而目前数据规划的建设反映在数据库建设方面,数据库建设是一项基础性工作。企业数据库建设经过了从小到大,从单一部门到全企业数据集成的过程。在数据集成过程中,最突出的问题就是数据质量问题。建立有效的数据质量控制体系是大型企业信息化建设屮一个非常重要的工作。影响数据质量的因素
6、很多,既有管理方而的因素,也有技术方而的因素。无论由哪个方而的因素造成的,其结果均表现在数据库屮的数裾没有达到预期的质量指标。如何定义数据质量指标,并可通过计算判断数据质量指标是否在指定的范围内是数据质量检测的本质,也是进一步进行数据清洗,提高数据质量的依据。本文分析了当前有关数据质量的各种特性,对这些特性进行了抽象,提出了一个可扩展的数据质量元模型。该元模型可以从多个层次上对数据库对象进行约束,应用可以根裾实际的需求扩展数据质量指标,并以元数据的方式定义数据质量的度量参数。2数据质量相关的研究成果和大型企业数据质量特点收稿日期:修改日期
7、:该项目受中国石油天然气笫团公司“中国石油数据中心建设”项目的资助.作者简介:管尊友,硕士研究生,主要研究领域为数据仓库、数据质S管理与控制及信忠规划等;冯建华,副教授.为了提岛数据质量,许多文献[11对影响数椐质:W:的因素以及提《数据质:W:的方法进行了研宄。当前主要研究是针对数据仓库中的数裾质量问题提出度量数据质量的指标和计算指标的算法,为数据清洗提供依据P]。文献以形式化的方法定义了数据的一致性、正确性、完整性和最小性,而数据质量被定义为这4个指标在信息系统中得到满足的程度。文献[4】提出了数据工程中数据质量的需求分析和模型,认为
8、存在很多候选的数据质:U:度:W:指标,用户应该根据应用的需求选择其屮一部分。文献丨51将数据仓库质量根据用户的不同分为四类:设计与管理质量、数据应用质量数据使用质量以及数据质量。每一类适用
此文档下载收益归作者所有