数据仓库数据质量的治理及体系构建

数据仓库数据质量的治理及体系构建

ID:11245724

大小:1.24 MB

页数:7页

时间:2018-07-11

数据仓库数据质量的治理及体系构建_第1页
数据仓库数据质量的治理及体系构建_第2页
数据仓库数据质量的治理及体系构建_第3页
数据仓库数据质量的治理及体系构建_第4页
数据仓库数据质量的治理及体系构建_第5页
资源描述:

《数据仓库数据质量的治理及体系构建》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、数据仓库数据质量的治理及体系构建中国建设银行股份有限公司信息技术管理部厦门开发中心程大庆郑承满在信息化应用不断深入的背景下,数据资源优势挖掘,基于数据治理提升业务响应能力等问题已经成为金融行业关注的焦点。本文主要讨论在大型银行数据仓库中构建数据质量治理体系的方法。如图1所示,以数据质量6Σ标准的6个特性为基础,根据数据仓库中的信息特征,划分为多个指标集如“完整性_主键重复”、“完整性_拉链错误”等;在这些指标集下,针对不同的实体和属性,形成不同的可实施的数据质量检核规则如“完整性_主键重复_客户信息表”。通常情况下,数据质量检核规

2、则是以制定好的数据质量指标集为基础,逐层逐块的进行质量检核;但是在实施中,经常会根据数据使用中发现的数据质量关键点或者某些业务需求,进行数据质量专项治理。(1)数据质量指标集的制定数据质量指标集的制定,需要考虑数据质量6Σ标准在不同数据集中的信息特征,以及数据仓库的数据架构和数据流向。在不同的数据架构和数据流向下,数据集中的数据质量信息特征不尽相同,数据质量检核重点不同,由此制定的数据质量指标集也不相同。由于数据量、数据加载工具的处理能力和数据库引擎的处理能力不同,不同数据仓库的数据处理顺序是不同的,主要分为ETL和ELT两种模式

3、。一般来说,数据库引擎厂商主推的是ELT模式,在数据加载入数据仓库后进行数据转换,如Teradata、Oracle;专业的ETL工具厂商主推ELT模式,如Informatica。两种模式下的数据一、数据质量治理的基本内容1.数据质量检核数据质量检核是指通过技术手段,以数据质量指标(包含技术指标和业务指标)为标准进行检核、监控,以发现数据质量问题。以数据质量6Σ标准为基础制定数据质量指标集,再针对具体的数据集编写数据质量检核规则,即可进行数据质量检核。对于每一个数据质量指标,均可衍生多个数据质量检核规则。图1基于数据集的数据质量核查

4、规则架构最大的不同点,在于ELT模式存在数据缓冲层,而ETL模式无数据缓冲层。数据缓冲层一般与数据源同构,用于缓冲放置数据仓库从异构数据源中获取的数据。下面以ELT模式下的数据仓库为例讨论数据指标集的制定,该模式下数据仓库的ETL过程分为3个环节:从数据源到仓库的ETL过程,仓库内部的ETL过程,仓库到目标的ETL过程。在整个ETL过程中,数据仓库的数据架构共分为四层:缓冲层、基础层、汇总层和应用集市层。以数据质量6Σ标准为基础,结合数据仓库的数据模型,遵循ETL过程和数据流向,分层级制定质量指标集即可进行立体的、全方位的数据质量

5、(如图2所示)。数据质量指标集的制定,可采用三层级制定方以数据质量6Σ标准的6个特性为基础,作为第一层将数据质量6Σ标准按数据仓库的数据层级划分,数据仓库数据流入SDATAPDATEMart数据流出MID数据质量检核规则集完整性有效性准确性唯一性一致性时间性数据集数据集完整性_代码错误_账户状态代码完整性_拉链错误_客户金额历史表…………完整性_代码错误完整性_拉链错误…………完整性_主键重复完整性_主键重复_客户信息表完整性_非法值完整性_非法值_客户开户日期第二层级;在数据层级上,再根据每个特性的分割,制定各层级的数据质量指标

6、集,即第三层级。以下为某大型银行的数据质量指标集实施实例。首先对各数据集缩写定义见表1。根据每个数据层集的数据特征,再对每个数据特性分子类,制定可实施的指标集。指标名称定义如下:数据特性_数据集缩写_特性子名称。表2为一个较为完整的、可实施的数据质量指标集。表1各数据集缩写定义表2数据质量指标集指标名称指标说明完整性_SD_非空加载入仓库缓冲层的源表非空完整性_SD_数量加载入仓库缓冲层的源表的数量正确、稳定完整性_SD_主键加载入仓库缓冲层的源表与上游源表的同时点主键值相同准确性_SD_属性加载入仓库缓冲层的源表与上游源表的同时

7、点属性信息值相同一致性_SD_关联加载入仓库缓冲层的各张源表满足主外键、包含关系有效性_SD_代码加载入仓库缓冲层的源表的代码值符合范围有效性_SD_属性加载入仓库缓冲层的源表的属性值符合范围,如日期字段符合日期范围,金额字段符合金额范围唯一性_SD_主键加载入仓库缓冲层的源表是否主键重复时间性_SD_时长加载入仓库缓冲层的源表数据保留时长是否正确时间性_SD_时点加载入仓库缓冲层的源表数据时间戳是否与业务时点符合完整性_PD_数量基础层实体当日发生变化记录数量,是否与相应的源表中数量相同准确性_PD_属性基础层实体的关键属性值,

8、是否与相应的源表中该属性值相同一致性_PD_关联基础层各实体间是否满足系统内和系统间的关联关系有效性_PD_代码基础层实体的代码值,是否符合定义范围有效性_PD_属性基础层实体的属性值,是否符合定义范围有效性_PD_拉链基础层采用拉链存储策略的实体

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。