欢迎来到天天文库
浏览记录
ID:58578177
大小:3.05 MB
页数:32页
时间:2020-10-19
《数据质量管理.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、数据质量管理2019年7月29日目录第一章数据质量管理概述31.1数据质量管理定义31.2数据质量管理评价标准31.3数据管理成熟度41.4数据质量问题分类4第二章数据质量问题的原因与实施方法62.1数据质量问题的原因分析62.2数据质量管理的意义7第三章数据清洗93.1数据清洗加工原则93.2数据清洗质量评估要求93.3数据清洗角色定义103.4数据清洗的方法113.4.1数据预处理123.4.2数据清洗14第四章数据质量管理系统204.1系统定位204.2系统价值204.3系统架构204.3.1逻辑架构204.3.2技术架构214.3.3
2、功能架构214.4主要功能模块224.4.1数据质量定义模块224.4.2质量检查任务调度模块254.4.3检查结果采集模块274.4.4质量问题分析模块274.4.5系统配置管理模块29第五章名词解释30第六章参考资料31第一章数据质量管理概述1.1数据质量管理定义数据质量管理(DataQualityManagement),是指对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。DAMA(国际数据
3、管理协会)中对数据质量管理的阐述如下:数据质量预期为定义数据质量框架提供必要的输入。此框架包括定义需求、定义检查策略、定义度量和定义反映数据质量和绩效变化的监控措施。这些需求反映了业务数据预期的3个方面:以一种方式将数据预期记录在业务规则中,以一种方式在该维度上度量数据质量,以及一个可接受度的阈值。1.2数据质量管理评价标准数据质量度量的规则有很多,一般常用的如下:n一致性:一致性是指统一数据来源、统一存储和统一数据口径,确保一个数据集的数值和另一个数据集的数值一致,一致性主要考察的是业务约束检查;n有效性:有效性是指数据实例的存储、交换或针
4、线的格式是否与数据值域一致,是否与其他相似的属性值一致,有效性确保了数据值遵循与数据元素的多个属性:数据类型、精度、格式、预定义枚举值、值域范围及存储格式等,有效性主要考察的非法值检查,数据格式校验;n准确性:准确性是指数据准确反映其所建模的“真实世界”实体的程度,通过度量数据值与一个已确定的正确信息参照源的一致性来衡量其准确性。准确性主要考察码值校验;n完整性:完整性是指一个数据集的特定属性都被赋予了数值或者一个数据集的全部行记录都存在。包括实体不缺失、属性不缺失、记录不缺失和字段值不缺失四个方面完整性,主要考察空值校验、记录数校验等;n合
5、理性:合理性指按用户实际情形进行校验规则扩展;n唯一性:唯一性主要体现在一个数据集中,没有实体多余一次出现。满足实体唯一性,说明没有实体出现多余一次,并且每个唯一实体有一个键值,且该键值只指向该实体。唯一性主要用于主键重复检查、主外键校验、总分校验;n及时性:指数据刷新、修改和提取等操作的及时性和快速性,数据的采集和入库要满足业务发展和管理的时效性要求;n精确性:指计量误差、度量单位等方面的精确程度。1.1数据管理成熟度数据质量成熟度模型分为四个等级,分别是初始级-定义级-管理级-优化级;n初始级:通过数据库进行数据管理;n定义级:通过模型管
6、理进行数据管理;n管理级:通过元数据进行数据管理;n优化级:通过企业标准数据架构进行数据管理;其中,初始级和定义级阶段,每个系统都是分离的数据管理,非标准的独立的数据管理,管理级和优化级阶段,采用企业集成数据管理和标准化元数据管理。1.2数据质量问题分类数据质量主要针对单数据源数据和多数据源数据两方面,两种类型数据都由实例层数据和模式层数据组成。数据清洗技术是解决数据质量问题的一种有效方法,可以检测和修正实例层的脏数据。但是数据清洗技术无法全面地解决数据质量问题中模式层的脏数据,必须借助数据整合技术。第一章数据质量问题的原因与实施方法2.1数
7、据质量问题的原因分析数据质量的问题突出表现在:核心问题收入减少、成本增加、风险增高。分别从信息化标准建设、信息管理制度、数据管理流程、技术能力建设方面来看数据数据质量问题的原因:1)信息问题域:n缺乏统一的数据描述导致业务理解差异n信息标准不统一产生低质量的数据,导致业务人员对数据缺乏信心2)管理问题域n对数据质量的价值及其重要性认识不足n缺乏专门的数据质量管理组织与相关的管理制度3)流程问题域n需求变更、开发测试等方面没有流程规范和制度n数据创建、数据使用、数据维护等方面没有流程规范和制度4)技术问题域n系统建设重功能轻数据n系统接口复杂,
8、数据流向不清,缺乏对数据的整体规划n具体数据处理的各技术环节的异常造成的数据质量问题2.1数据质量管理的意义n可灵活配置检核规则:内置多种数据质量问题的检核规则,支
此文档下载收益归作者所有