数据仓库数据质量的治理及体系构建.pdf

数据仓库数据质量的治理及体系构建.pdf

ID:57023015

大小:2.06 MB

页数:7页

时间:2020-07-31

数据仓库数据质量的治理及体系构建.pdf_第1页
数据仓库数据质量的治理及体系构建.pdf_第2页
数据仓库数据质量的治理及体系构建.pdf_第3页
数据仓库数据质量的治理及体系构建.pdf_第4页
数据仓库数据质量的治理及体系构建.pdf_第5页
资源描述:

《数据仓库数据质量的治理及体系构建.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、应用开发ApplicationDevelopment数据仓库数据质量的治理及体系构建中国建设银行股份有限公司信息技术管理部厦门开发中心程大庆郑承满在信息化应用不断深入的背景下,数据资源优势挖如图1所示,以数据质量6Σ标准的6个特性为基础,掘,基于数据治理提升业务响应能力等问题已经成为金根据数据仓库中的信息特征,划分为多个指标集如“完整融行业关注的焦点。本文主要讨论在大型银行数据仓库性_主键重复”、“完整性_拉链错误”等;在这些指标集中构建数据质量治理体系的方法。下,针对不同的实体和属性,形成不同的可实施的数据质量检核规则如“完整性_主键重复_客户信息表”

2、。一、数据质量治理的基本内容通常情况下,数据质量检核规则是以制定好的数据1.数据质量检核质量指标集为基础,逐层逐块的进行质量检核;但是在数据质量检核是指通过技术手段,以数据质量指标实施中,经常会根据数据使用中发现的数据质量关键点(包含技术指标和业务指标)为标准进行检核、监控,或者某些业务需求,进行数据质量专项治理。以发现数据质量问题。以数据质量6Σ标准为基础制定(1)数据质量指标集的制定数据质量指标集,再针对具体的数据集编写数据质量检数据质量指标集的制定,需要考虑数据质量6Σ标核规则,即可进行数据质量检核。对于每一个数据质量准在不同数据集中的信息特征,以

3、及数据仓库的数据架指标,均可衍生多个数据质量检核规则。构和数据流向。在不同的数据架构和数据流向下,数据集中的数据质量信息特征不尽相同,数据质量检核重点不同,由此制定的数据质量指标集也不相同。由于数据量、数据加载工具的处理能力和数据库引擎的处理能力不同,不同数据仓库的数据处理顺序是不同的,主要分为ETL和ELT两种模式。一般来说,数据库引擎厂商主推的是ELT模式,在数据加载入数据仓库后进行数据转换,如Teradata、Oracle;专业的ETL工具厂商主推ELT模式,如Informatica。两种模式下的数据28FINANCIAL COMPUTER OF 

4、CHINA应用开发ApplicationDevelopment完整性唯一性准确性时间性一致性有效性完整性_主键重复完整性_拉链错误…………完整性_代码错误完整性_非法值完整性_主键重完整性_拉链错误完整性_代码错误完整性_非法值…………复_客户信息表_客户金额历史表_账户状态代码_客户开户日期数据集数据集图1基于数据集的数据质量核查规则架构最大的不同点,在于ELT模式存在数据缓冲层,而市层。ETL模式无数据缓冲层。数据缓冲层一般与数据源同构,以数据质量6Σ标准为基础,结合数据仓库的逻辑用于缓冲放置数据仓库从异构数据源中获取的数据。数据模型,遵循ETL过程

5、和数据流向,分层级制定数据下面以ELT模式下的数据仓库为例讨论数据指标集质量指标集即可进行立体的、全方位的数据质量检核的制定,该模式下数据仓库的ETL过程分为3个环节:(如图2所示)。从数据源到仓库的ETL过程,仓库内部的ETL过程,仓库数据质量指标集的制定,可采用三层级制定方法:到目标的ETL过程。在整个ETL过程中,数据仓库的数以数据质量6Σ标准的6个特性为基础,作为第一层级;据架构共分为四层:缓冲层、基础层、汇总层和应用集将数据质量6Σ标准按数据仓库的数据层级划分,作为数据仓库数据流入SDATAPDATEMart数据流出MID数据质量检核规则集完整

6、性有效性准确性唯一性一致性时间性图2数据质量检核分层级制定示意2011.6中国金融电脑29应用开发ApplicationDevelopment第二层级;在数据层级上,再根据每个特性的分割,制表1各数据集缩写定义定各层级的数据质量指标集,即第三层级。以下为某大型银行的数据质量指标集实施实例。数据集中文名数据集英文名数据集缩写首先对各数据集缩写定义见表1。根据每个数据层缓冲层SDATASD集的数据特征,再对每个数据特性分子类,制定可实施基础层PDATAPD的指标集。指标名称定义如下:数据特性_数据集缩写_汇总层MIDMI特性子名称。表2为一个较为完整的、可实

7、施的数据质集市层MARTMA量指标集。表2数据质量指标集指标名称指标说明完整性_SD_非空加载入仓库缓冲层的源表非空完整性_SD_数量加载入仓库缓冲层的源表的数量正确、稳定完整性_SD_主键加载入仓库缓冲层的源表与上游源表的同时点主键值相同准确性_SD_属性加载入仓库缓冲层的源表与上游源表的同时点属性信息值相同一致性_SD_关联加载入仓库缓冲层的各张源表满足主外键、包含关系有效性_SD_代码加载入仓库缓冲层的源表的代码值符合范围有效性_SD_属性加载入仓库缓冲层的源表的属性值符合范围,如日期字段符合日期范围,金额字段符合金额范围唯一性_SD_主键加载入仓

8、库缓冲层的源表是否主键重复时间性_SD_时长加载入仓库缓冲层的源表数据保留时长是

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。