欢迎来到天天文库
浏览记录
ID:22472163
大小:368.76 KB
页数:7页
时间:2018-10-29
《数据仓库数据质量的治理及体系构建》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、数据仓库数据质量的治理及体系构建中国建设银行股份有限公司信息技术管理部厦门开发中心程大庆郑承满在信息化成用不断深入的背景下,数据资源优势挖掘,基于数据治理提升业务响应能力等问题己经成为金融行业关注的焦点。本文主耍讨论在大型银行数据仓库屮构建数据质量治理体系的方法。一、数据质量治理的基本内容1.数据质量检核数裾质量检核足指通过技术手段,以数据质量指标(包含技术指标和业务指标)为标准进行检核、监控,以发现数据质量问题。以数据质量62标准为基础制疰数裾质量指标集,再针对具体的数据集编写数据质量松核规则,即可进行数据质量检核。对
2、于每一个数裾质fi指标,均讨衍牛.多个数裾质量检核规则。如图1所示,以数据质S6X标准的6个特性力基础,根据数据仓库中的信息特征,划分为多个指标集如“完整性_主键重复”、“完整性_拉链错误”等;在这些指标集下,针对不同的实体和屈性,形成不同的可实施的数据质量检核规则如“完整性_主键重复_客户信息表”。通常情况下,数据质tt检核规则足以制定好的数提质量指标集为基础,逐层逐块的进行质量检核:但是在实施中,经常会根据数据使用中发现的数据质S关键6或者某些业务需求,进行数据质S专项治理。(1)数据质s:指标集的制定数据质a指标集
3、的制定,霈要考虑数据质量6X标准在不冋数据集屮的信息特征,以及数据仓库的数据架构和数据流向。在不同的数据架构和数裾流向下,数据集中的数据质S信息特征不尽相同,数据质萤检核重点不同,由此制定的数据质景指标集也不相同。由于数据量、数据加载工具的处理能力和数据库引擎的处理能力不同,不同数据仓诗的数据处理顺序是不同的,主要分为ETL和ELT两种模式;。一般來说,数据库引擎厂商i推的是ELT模式,在数据加载入数据仓库后进行数据转换,如Teradata、Oracle;专业(KETL工具厂商主推ELT校式,如Informatica。两
4、种模式下的数1W图1基于数据集的数据质量核查规则架构鉍大的不同点,在于ELT模式存在数裾缓冲层,而ETL模式无数据缓冲层。数据缓冲层一般与数据源同构,用于缓冲放《数据仓库从异构数椐源中获取的数据。下而以ELT模式下的数据仓库为例讨论数据指标穽的制定,该模式下数据仓库的ETL过程分为3个环节:从数裾源到仓库的ETL过程,仓库内部的ETL过程,仓戽到l=l标的ETL过程、在整个ETL过程中,数据仓库的数据架构共分为四层:缓冲层、基础层、汇总层和应用集啦层。以数裾质量6Z标准为基础,结合数据仓库的数据模型,遵循ETL过程和数据
5、流向,分层级制定质ft指标集即可进行立体的、全方位的数据质S(如图2所示)。数据质it指标集的制定,可采用三层级制定方以数裾质量6X标准的6个特性为基础,作为第一M将数据质景6E标准按数据仓库的数据层级划分,第二层级;在数据层级上,再根椐每个特性的分割,制定各层级的数据质量指标集,即第三层级。以下力某大型银行的数据质tt指标集实施实例。首先对各数据集缩写定义见表1。根据每个数据层集的数据特征,再对每个数据特性分子类,制定可实施的指标集。指标名称定义如不:数据特性_数据集缩写_特性子名称。表2为一个较为完整的、可实施的数据
6、质量指标集。表1各数据集缩写定义:数据集中文名数据集英文名数据集缩写:I缓冲层SDATASD
7、j基础层PDATAPD!汇总层MIDMI
8、集市层MARTMA表2数据质量指标集指标名称指标说明完整性_SD_非空加载入仓库缓冲层的源表非空完整性_SD_数适加载入仓库缓冲层的源表的数虽正确、稳定完整性_卯_圭键加载入仓库缓冲层的源表与上游源表的同吋点主键值相同准确性_SDj4性加载入仓库缓冲层的源表与上游源表的同时点屈性信息值相同一致性_SD_关联加载入仓库缓冲层的各张源表满足主外键、包含关系有效性SI)代码加载入仓库缓冲层的源
9、表的代码值符合范围冇效性SI)属性加载入仓厍缓冲层的源衣的属性伉符合范阑,如日期字段符合日期范围,金额字段符合金额范闱唯一性_SD_主键加载入仓库缓冲层的源表是否主键甫货吋间性jl)时忪加载入仓庳缓冲层的源表数据保留时长是否正确时间性SI)时点加载入仓库缓冲层的源表数据吋间戳是否与业务吋点符合完整性数萤基础层实体当日发生变化记录数虽,是否与相应的源表中数虽相同准确性_PD_属性基础层实体的关键属性值,是否与相应的源表中该属性值相同一致性Pl)_关联基础层各实体间是否满足系统内和系统间的关联关系有效性_P[)_代码基础层实
10、体的代码值,是否符合定义范围涵性_PD_SS基础层实体的诚性值,是否符合定义范围有效性_PD_拉链基础层采用拉链存储策略的实体,拉链是否正确存效性_P【)_离线基础层实体离线数据的IE确性唯一性_PD_主键基础层实体的主键是否重复一致性311_关联汇总层各实体间是否满足系统内和系统间的关联关系唯一性_ML主键汇总层实
此文档下载收益归作者所有