欢迎来到天天文库
浏览记录
ID:5953724
大小:26.50 KB
页数:5页
时间:2017-12-29
《数据组织过程中数据质量评价探究》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据组织过程中数据质量评价探究 摘要:以基于生命周期的数据质量管理框架为出发点,提出了数据组织过程中的数据质量评价模型和方法,包括数据质量维度、数据质量评价指标、数据质量综合评价模型以及数据质量评价方法等。该模块与方法对提高数据质量和加强数据运用具有重要意义。关键词关键词:数据质量;管理框架;评价指标;评价方法中图分类号:TP391文献标识码:A文章编号文章编号:16727800(2013)0110132030引言数据质量可以简单地定义为“满足最终数据用户期望的程度”\[1\]。数据作为重要的信息资产,其质量高下直接影响着数据效能的发挥,低质量的数据将给数据使用的主体带来巨
2、大损失。Card&Payments的一项分析报告表明,每年仅仅因为错误或重复的客户信息就使企业多付出了6千多亿美元的成本\[2\]。还有报告指出,仅在2007年,不合格的数据使保险业付出了140亿美元的成本,使银行业付出270亿美元的运营成本\[3,4\]。1数据质量管理框架理解生命周期(Life5Cycle)的思想对于管理任何资源都是重要的,这一周期是指某事物整个有用生命的变化和发展过程。DanetteMcGilvray将信息生命周期划分为6个阶段,并用首字母将其命名为POSMAD,分别是:规划(Plan)、获取(Obtain)、存储和共享(StoreandShare)、维
3、护(Maintain)、应用(Apply)、报废(Dispose),如表1所示\[5\]。数据质量的管理应该贯穿到整个数据的生命周期中,文献\[5\]还基于数据质量提高周期提出了10步流程,如图1所示。图1数据质量提高周期10步流程表1POSMAD信息生命周期的各个阶段和行动POSMAD1定义1信息行动实例规划(Plan)1准备资源1确定目标、规划信息结构、制订标准和定义;在建模、设计、开发软件和数据库、流程、组织等环节,许多行动都被作为信息规划阶段的一部分获取(Obtain)1获取资源1创建记录、购置数据、加载外部文件等存储和共享(StoreandShare)1以电子形式或
4、硬拷贝占有资源,并通过某种分发方式共享信息1数据以电子形式存储,或以纸质应用形式存储在硬拷贝中通过互联网、ESB或Email等形式共享与资源有关的信息维护(Maintain)1确保资源能够持续正常工作15更新、变更、操作、解析、标准化、验证或核实数据;提高或增强数据的质量;清洗、擦洗或转换数据;消除重复、匹配或合并记录等应用(Apply)1使用资源达到目标1检索数据、使用信息报废(Dispose)1丢弃没用的资源1归档信息,删除数据或记录结合表1和图1不难看出,对数据进行质量校验和评估,然后向用户和数据建设者沟通评估情况是提高数据质量的重要环节。2数据质量评价模型数据质量维度
5、是质量的特征,它们为度量和管理数据质量提供了一种途径。在建立数据质量评价模型时,首先要做的是选择数据质量维度,然后据此建立数据质量评价指标体系,最后基于指标体系设计评价算法。2.1数据质量维度DanetteMcGilvray归纳出数据质量的维度有12项,如表2所示\[5\]。数据组织环节中的质量评价并不需要从表2所列的所有维度进行评估,应该根据需要选择要评价的质量维度。选择的依据有两点:①是否应该评价该维度;②能否评价该维度。5数据的组织是介于数据资源建设和数据运用中间的环节,因此数据的组织者不应以建设者的身份对数据建设规划与建设环节的相关维度进行评估,如可维护性、数据覆盖等
6、,也不能以应用者的身份来评价数据的有关维护,如及时性、可用性、易用性、可理解性、相关性和可信度等。表2数据质量维度序号1维度1定义11数据规范性1对数据标准、数据模型、业务规则、元数据和参考数据的存在性、完全性、质量和文档资料的测量标准21数据完整性1数据的存在性、有效性、结构、内容和其它基本特性的测量标准31数据重复性1对存在于系统内或系统之间的特殊字段、记录或数据集意外重复的测量标准41数据准确性1数据内容正确性的测量标准(需要一个已认证、可访问的权威参考源)51一致性和同步性1存储或用于多种数据仓库、应用软件、系统和使数据相等的流程中的信息等价测量标准61及时性及可用性
7、1对特定应用和预期时段内的数据及时性和可用性程度的测量标准71易用性和可维护性1数据能被访问和使用的程度以及数据能被更新、维护和管理的程度的测量标准81数据覆盖1相对于数据总体5或全体相关对象的数据可用性和全面性的测量标准91表达质量1如何表达信息以及从用户处收集这些信息的测量标准。格式和外观支持信息的相应使用101可理解性、相关性和可信度1对数据质量的可理解性和可信度的测量标准,业务需求的重要性、价值和相关性111数据衰变1数据负面变化率的测量标准121效用性1对数据产生期望业务交易或结果程度的测量标
此文档下载收益归作者所有