数据质量管理系统应用

数据质量管理系统应用

ID:5741702

大小:27.00 KB

页数:8页

时间:2017-12-23

数据质量管理系统应用_第1页
数据质量管理系统应用_第2页
数据质量管理系统应用_第3页
数据质量管理系统应用_第4页
数据质量管理系统应用_第5页
资源描述:

《数据质量管理系统应用》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、数据质量管理系统应用数据质量管理系统应用数据质量管理系统应用----生活篇最近在看关于综合分析数据质量管理规范的时候,结合实际生活当中的例子。在这里说出,可以讨论一下。这里主要是指标值数据质量的管理:1:数值检查个可以和我们固定的阈值检查结合起,即通过检查单个指标的数值和阈值的比较发现指标的异常和变动的情况。这个就是固定阈值的一种情况。比如当地铁离近站只有4分钟的时候,地铁旁边的灯会一直闪烁。地铁离开车只有一分钟要关门的时候,就会告警即将开车。以免突然开车造成人的伤害。2:波动检查:一般就是同比波动的检查和环比波动

2、的检查。先计算指标的同比或环比波动率,然后与预订的波动率上下限(阈值)进行比较。这个就是范围阈值。例如昨天公交车上有一条新闻就是重庆目前一小时之内公交车换成免费。那么这一个小时之内就是一个范围阈值,只要在一个小时之内不收钱,即什么也不做,但是当超过一个小时之后就要收钱。那么我们这里就需要告警。3:还有一种日常当中常用的就是动态阈值比如我们乘坐地铁的时候根据路程的不同地铁价格不同。以及依照路程计价的公交车也一样,路程不同,价格不同。本质上都是乘坐地铁或者公交,但是由于距离问题因此价格不同,比如收入指标阈值制定的时候,

3、比如不同的地市,在同一时间维度阈值是不同。比如经济发达地区应该制定高一点,经济欠发达地区制定低一点。4:指标之间的关联检查,比如我们常说的同增同减关联关系,还是以地铁为例,路程增加了,那价格相应就增加了。比如我们理论上我们的用户数增加了,那么收入应该有所增加。但是有时候反而用户量增加了,收入却下降了。增加的用户数比丢失的用户数多因此整体上用户量增加了。但是增加的用户量都是一些劣质用户,而丢失了一部分高端用户。从而导致用户数增加,收入下降的局面。:指标平衡检查:对若干个指标值的简单四则运算(加、减、乘、除),检验各个

4、指标间潜在的平衡或其他比较关系。比如有些指标日指标汇总应该与月指标的值平衡。当发现数据出现异常的时候,首先先分析一下,是不是一些因素导致指标的变化,比如节假日,周末,市场营销策略,以及外部的一些政策对指标造成的变化,然后再查看是不是真的是数据质量的问题,以及接口数据的问题。数据质量管理系统----理论篇数据质量管理系统:一:从以下个方面对数据的质量进行管控1:及时性:数据获取是否及时,主要指数据提取、传送、转换、加载、展现的及时性。在数据处理的各个环节,都会涉及到及时性。我们一般考虑两个方面第一就是接口数据是否能够

5、及时的抽取过。第二就是展现层能否及时的展现出。2:完整性:是指数据是否完整,描述的数据要素,要素属性及要素关系存在或不存在,主要包括实体缺失、属性缺失、记录缺失以及主外键参照完整性的内容。3:一致性:第一就是原始数据即接口和入库的数据记录条数是一致的。第二就是同一指标在任何地方都应该保持一致。4:有效性:描述数据取值是否在界定的值域范围内,主要包括数据格式、数据类型、值域和相关业务规则的有效性。:准确性:主要是指指标算法、数据处理过程的准确性。这个准确性主要是通过元数据管理中定义的指标的算法、数据处理顺序和人工检查

6、相结合的方式保证。二:数据仓库中需要进行质量管理的数据分类1:接口数据:接口数据是整个数据仓库的生命的起点,如果接口数据有问题的话会严重影响数据仓库后面的报表以及分析结果。接口数据分为两种情况:接口和数据库接口接口方面:一方面是接口内容本身的数据质量问题:传送及时率。内容有效性。传递的完整性一方面是接口采集程序的监控:接口采集程序是否正常启动,正常结束等。账期,接口名称,采集开始时间,采集结束时间,有效标志,接口及时率标志,接口完整性标志等。这些可以通过查看接口运行日志获取相关信息情况。数据库接口方面:数据库接口参

7、考接口部分。2:数据仓库层面的数据:关键包括两个方面的内容数据处理过程执行情况和关键指标检查第一:数据处理过程监控:监控所有的数据处理过程十分按时调度,是否成功。这些可以通过查看数据处理过程日志表获取相关信息第二:关键指标的检查:指标检查主要包括两个方面:首先是基础指标的检查:数值检查:主要是通过检查单个指标的数值发现指标的异常和突变等情况。这里需要设置相应的阀值进行。这里需要考虑周末、节假日以及一些外部因素对指标的影响。因此指标异常并不一定是数据的问题。波动检查:主要是同比或者环比的检查。先计算指标的同比或环比波

8、动率,然后与预定的波动率上下限(阈值)进行比较。需要考虑周末、节假日及一些外部因素对指标的影响。因此指标异常不一定是数据的问题。关联检查:对两个存在关联关系的指标(如同增、同减正关联关系),分析变化和波动情况。比如用户量和话务量以及用户量和收入之间的关联分析。用户量增加了。应该收入有所增加。但是有时候反而用户量增加了,收入却下降了。增加的用户数比丢失的用户数

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。