欢迎来到天天文库
浏览记录
ID:59329529
大小:6.70 MB
页数:7页
时间:2020-10-31
《数据稽核文档.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、1.1数据稽核1.1.1稽核策略如图所示,DM数据稽核的大致思路是通过数据完整性、数据一致性、数据准确性三方面依次对DM层数据进行稽核,每一步都为下一步做准备,层层递进,环环相扣,以保证DM获取层、基础层、衍生层、复合指标层以及视图层的数据质量。1.1.1.1数据完整性数据完整性稽核主要包括,实体是否在规定的时间点提供了并加工生成了数据,实体中指标是否完整覆盖订阅指标两个方面,首先考虑实体中各账期各省份是否有数据(即判断数据是否缺失),只有在实体有数据的基础上才能做进一步的数据稽核,其次检查数据中指标
2、是否满足需求,是否包含指标订购的指标。实体是否在规定的时间点提供了并加工生成了数据,相当与已经具备了一个完整的木桶,指标覆盖了订购,相当与已经盛满了鱼。数据完整性稽核的目的也就是,用完整的“木桶”,盛满我们需要的“鱼“。1.1.1.1数据一致性数据在由数据源到数据获取层,数据获取层到基础数据层,再由基础数据层到衍生数据层的传递过程中,数据能否保持一致也成为纵向实体间稽核的内容。在此基础上,检查横向实体间在相同口径下的相同指标的指标值是否一致。虽然实体间相同口径下相同的指标是建设集市极力避免出现的,但是
3、一旦出现并使用,就要要对此进行严格的稽核管控。这种大量横纵十字交叉的方式进行一致性的检查,便形成了一种网状稽核。数据一致性网状稽核的目标便是无“漏网之鱼”。复合指标层的一致性稽核主要包括复合指标层实体内上期值、累计值等对应一致的稽核,这不仅保证了复合指标层的数据一致,而且便于数据的准确性稽核。1.1.1.2数据准确性数据在时间推移的过程中不可能一成不变,会按着一定规律波动,我们依照以往指标数据,确定不同指标的波动上限,波动下限,形成一个指标的正常波动范围。在数据保证完整一致的基础上,对当前更新的月数据
4、作环比来表现月指标的变化状况,对当前更新的日数据作同比来表现日指标的变化状况,严格控制阀门,一旦超出指标正常波动范围,准确及时地找到异常数据。另外,我们用排名对比的方法体现复合指标层指标较上月的排名变化,把指标省内排名和全国排名变化较大的标记为异常指标。以上是本月比起上月同期值的变化情况,如果指标为异常,我们并不能确定哪个月的数据异常,因此,引出在时间序列上的指标数据展现,从而确定异常数据来源。1.1.2稽核规则根据稽核策略,我们制定了数据完整性、数据一致性、数据准确性稽核的标准,提供数据稽核时参照的
5、依据,也就是稽核规则。1.1.1.1数据完整性稽核规则1.1.1.1.1数据是否缺失稽核依照数据应出数时间,与数据实际出数时间对比,检查实体是否在规定的时间点提供了并加工生成了数据。例如:日指标的应出数时间为第二天的四点,我们就可以以此为标准,检查日指标是否在规定的时间点提供了指标数据。1.1.1.1.2指标是否缺失稽核将表中所含指标与需求订购表作对比,表中没有且订购表中有的指标即是表中缺失的指标。比如说一个表我们需要N个指标,但数据接口层的表只提供了这N个指标中的N-1个,那我们就可以找出这一个缺失
6、的指标,反馈给数据提供方。如图所示,显示了两个表的所有订购指标,稽核这两个表的完整性时以这些指标为参照,找出缺失的指标列出来。类型表名订购指标日DM_KPI_ESS_TERM_D终端补贴用户主叫计费时长、终端销售量上网流量、网上用户数、流量用户数、三无用户数、活跃用户数、终端补贴金额、终端补贴主叫通话用户数月DM_KPI_W_MOB_BAS_M套餐包上网流量、短信条数、下行流量、佣金、预流失用户、套餐包主叫计费时长、计费时长、上行流量、流量用户数、活跃用户数、三无用户数、携入用户数、欠费用户数、新增用
7、户数、出账用户数、离网用户数、合约到期用户数、注销用户数、转网用户数、停机用户数、发展用户数、套餐转移用户数、通话用户数、流失用户数、未出账用户数、终端补贴用户数、通话次数、终端补贴金额、上网次数、上网时长、通话时长、上网流量、综合优惠金额、缴费金额、欠费金额、出账收入、网上用户数、出账收入、上网流量、活跃用户数、短信条数、出账用户数以上是稽核基础指标是否缺失,要考虑基础指标在非公共维度上是否缺失,这种情况我们可以通过稽核复合指标是否缺失来实现。系统页面展示时会以复合指标+公共维度的方式展现,我们通过
8、稽核复合指标在公共维度(时间、地域、产品类型、渠道类型等)上是否缺失来实现。1.1.1.1数据一致性稽核规则1.1.1.1.1数据纵向表间传递稽核纵向表间稽核可分为数据获取层与数据仓库数据源指标值的对比稽核、基础数据层同衍生数据层指标值的对比稽核。数据获取层与数据仓库数据源指标值的对比稽核:通过对数据获取层,数据源在相同账期,相同省份的相同口径下的各指标值作差。若差值为零,则数据正常;否则数据在传递过程中有误;基础数据层同衍生数据层指标值的对比稽核:通过
此文档下载收益归作者所有