数据质量评价模型的建立和实现.doc

数据质量评价模型的建立和实现.doc

ID:55930731

大小:30.50 KB

页数:3页

时间:2020-06-16

数据质量评价模型的建立和实现.doc_第1页
数据质量评价模型的建立和实现.doc_第2页
数据质量评价模型的建立和实现.doc_第3页
资源描述:

《数据质量评价模型的建立和实现.doc》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、[摘要]本文提出了数据质量评价模型、质量校验与评价方法,论述了“数据质量分析评价系统”的程序实现流程、总体结构及功能,介绍了系统的关键技术及进一步的研究方向。  [关键词]质量模型质量检验质量评价    数据作为一种资源,是支撑信息化建设和应用的主体,根据“进去的是垃圾,出来的也是垃圾”这条原理,为了支持正确决策,就要求我们所管理的数据可靠,没有错误,能够准确地反映采油厂的实际情况。胜利采油厂数据中心存放了5千万条的数据,还在以每天2万条的速度加载,如何使这些海量数据在生产管理、科学研究、企业决策中发挥应有作用,使用户能用、敢用、愿

2、用,使数据真正为企业服务,这是几乎所有信息化企业亟需迫切解决的问题。为解决数据质量问题,各种管理手段、技术手段和新的数据评价体系不断被应用在数据的采集和加工过程中。  一、数据质量评价模型的提出背景  采油厂的数据资源具有:横跨专业多,数据采集密度大、频度高,数据处理流程复杂等特点,为了保证数据的可用性,数据管理人员在客户端、服务器端均设置了数据质量审核规则,但是依然不可避免存在比例较高的数据质量问题,典型的有记录不全、数据遗漏、数据错误、多义字段、矛盾值、违背业务规则、无法关联等。产生数据问题的根本原因可以归结为以下几个方面:  

3、1.没有从数据资源的战略高度对数据质量进行统一完整的定义,导致数据的分析评估没有统一可靠的标准;  2.数据质量还停留在定性评价,不能实现精确的量化评价,只是在业务需要某个数据时,才到库里去手动统计,无法动态记录某个单位、某个月的真实数据质量发生情况,导致数据质量考核缺乏可信的数据依据,大大影响考核力度;  3.没有一个能同时面对用户、专业部门、数据管理人员的可视化的数据质量监控评价平台,三方无法共享一个平台,共同实行数据管控一体化,导致业务规则的变更滞后,问题数据在库中的长期滞留;  4.也许有了N个业务模型,但是没有把它放到时间

4、轴上去控制流程,导致实际生产中应该发生的活动的部分生产数据遗漏;  虽然影响采油厂数据质量的原因是多方面的,但主要的原因还是集中在管理、制度和数据采集加工规范化方面。对于如何通过管理、制度、标准和流程来控制数据质量,提高数据可信度,我们提出建立采油厂统一的数据质量分析评价模型,使用管理手段和技术手段相结合的办法,建立一套完善的数据定义、控制、评估流程,依托科学严谨的数据监督和质量控制体系持续地改进数据质量。  二、数据质量分析评价模型构成  构成数据质量分析评估模型的要素分别为:基础模型、数据质量辅助模型、数据质量定义模型、数据质量

5、控制模型、数据质量评价模型。  1.基础模型。基础模型部分是整个模型框架的支撑核心部分,其他质量模型的定义和控制必须以基础模型中的计划和标准为依据。基础模型主要是映射、定义数据采集标准,上载分单位的采集计划,同时纳入了约束规则定义规范、控制规则定义规范、模板定义规范。  数据标准:分两部分,一部分是直接映射应用中的标准,例如源数据库标准;另一部分是针对新增应用库和项目库标准的定义规范,包括代码定义标准、数据项定义标准(例如是取英文还是汉语拼音,取几个字符)、值域定义标准等等新增表准的建立规范;  采集计划:采集单位的每月上载的日度、

6、月度、年度的采集计划;  约束规则定义规范:主要描述质量定义模型中的语法构成;  控制规则定义规范:针对服务器负载和采集表的及时性要求建立的后台执行过程的控制方式的使用说明;  2.数据质量定义模型。数据质量定义模型的建立实现了以基础模型为前提对数据质量的统一规范的定义,是数据质量分析评价的依据和基础。数据质量定义模型可以使用质量特性描述。数据质量特性归纳为数据的一致性、数据的准确性、数据的完整性、数据的及时性4个关键特性。  (1)数据的一致性。数据一致性,包括源系统之间同一数据是否一致,源数据与抽取的数据是否一致,数据中心内部各

7、处理环节数据是否一致等。例如:单井基础信息、油井日数据中的单元代码应该和本年度的单元代码表保持一致;05应用库中抽取的数据项要与源头库保持一致等等。  一致性的量化评价指标:字段一致率、表间字段一致率、表间记录一致率。  (2)数据的准确性。数据准确性,包括数据源是否准确、数据值域是否符合业务规则和客观事实、编码映射关系是否准确、处理逻辑是否准确等。例如:作业日记的数据应该来源于作业队而不是采油队;一天的生产时间最大不可能超过24小时;水井干线压力要介于0~40兆帕之间。  准确性的量化评价指标:准确率、差错率、问题字段个数、问题记

8、录覆盖率  (3)数据的及时性。数据及时性,包括数据处理(获取、整理、加载等)的及时性,数据异常检测的及时性,数据处理更新的及时性等,例如:一口井油转水了,采集单位没有及时更改数据,不仅会影响队到矿,矿到厂的产量,更会影响厂到局的产量

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。