欢迎来到天天文库
浏览记录
ID:57741698
大小:1.17 MB
页数:4页
时间:2020-03-26
《基于自相似异常判断模型的数据稽核方法.pdf》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、学术探讨∙经验交流基于自相似异常判断模型的数据稽核方法王峥嵘郑邦峰吴清茂(中国移动通信集团海南有限公司,海南海口570125)[摘要]通过在数据稽核过程中根据数据自身的相似性来确定正常的数据趋势,并判断数据是否存在异常,满足横向数据稽核的要求,解决通信业务办理数据稽核的问题。[关键词]数据稽核;自相似;异常中图分类号:TP3-0文献标识码:B文章编号:1008-6609(2016)07-0105-03各渠道办理的本身特性,导致其办理的业务量需要一个复杂1前言的函数进行描述或者无法描述。最后,分类规则的不明晰,随着各行业对生产数据的完整
2、性、准确性、一致性的要导致大量的业务办理数据混成一团。但是这些特点并不能求越来越高,数据稽核的方法和技术应运而生。掩盖数据真实的关系,数据根据其归属关系,以及时间的周目前数据稽核的方法和技术主要有以下两种:期关系等,存在相关的自相似情况。分析这些自相似情况,(1)在数据仓库中的数据稽核根据相似度来判断业务办理是否有异常。在技术上,我们选在ETL(Extract-Transform-Load)中,对相邻的两个环节用自相关函数。中的数据总量进行验证,并在总量正确的情况下将数据进行x和y分别表示两个时间序列之间和同一个时间序列在分量分维度验
3、证。采用在ETL过程中进行稽核的方法,只能任意两个不同时刻的取值之间的相关程度,即互相关函数是对相邻节点的数据进行比对,即只能进行纵向数据稽核,而描述随机信号x(t),y(t)在任意两个不同时刻t1,t2的取值之间无法进行横向数据稽核,并且不能得到趋势性的稽核结果。的相关程度。自相关函数是描述随机信号X(t)在任意两个(2)设定平衡关系式,将全量数据进行关系匹配验证不同时刻t1,t2的取值之间的相关程度;互相关函数给出了采用设定平衡关系式,将全量数据进行关系匹配验证,在频域内两个信号是否相关的一个判断指标,把两测点之间发现数据之间的不
4、平衡。该种方法只能稽核到数据存在不信号的互谱与各自的自谱联系了起来。它能用来确定输出平衡,而无法确认正确的数据形态。信号有多大程度来自输入信号,对修正测量中接入噪声源而上述两种方法和技术都不能很好地解决通信业务办理产生的误差非常有效。--数据稽核的问题,而基于自相似模型的数据稽核系统,可通∑(x-x)(y-y)Correl(X,Y)=-2-2过在数据稽核过程中根据数据自身的相似性来确定正常的∑(x-x)∑(y-y)数据趋势,并判断数据是否存在异常,满足横向数据稽核的根据实际的测算,如果相似度>0.9,我们可以认为是相要求。似的。2定义
5、一种基于自相似模型的数据稽核方法3几种自相似情况基于自相似模型的数据稽核方法包括基于不同的时间3.1基于时间周期的自相似情况周期、地域归属关系、渠道关系、统计规律的自相似方法。虽然在一天内,存在工作时间非工作时间的区别,也有生产运营的特点决定了在业务办理数据中,无法正确判忙闲时的区别,但是以天作为单位的时候,却是存在自相似断异常错误来源或者不少细小量的业务异常被淹没在大规情况。对于业务量较高的日期和业务量较低的日期,之间存模的正常数据中。首先,业务办理数据存在工作时间和非工在一个差值,但是这种差值分布在每天的各个时间段,在任作时间的差
6、别。其次,各地市之间的用户基数的区别,以及意时间段是存在一定的比例的。——————————————作者简介:王峥嵘,女,海南人,本科,助力工程师,研究方向:业务支撑系统规划,应用系统开发。-105-学术探讨∙经验交流例:日办理业务量异常(4)图4从数值上看没有问题,但明显图形不一样。从(1)图1所示是某月的平均每日24小时内的标准图总体业务办理量来看,办理的业务差不多,但是分散在各个像。(系列2:某项业务)时间段,但明显发生了下午6点的业务高峰的情况,这种时候的相似度小于0.9。(系列2:某项业务)图1标准图形图4存在高峰点异常示意(
7、2)从图2中可见,虽然业务量只有平常的3/4,但是从图形上来讲,他们是类似的度,根据上述算法,相似度为(5)如图5(系列2:某项业务),从一个整月的图形看,0.97148,在可以接受范围内。(系列2:某项业务)我们能够清楚地看出每个周期的一致性,以及其中明显的异常点。图5月度数据示意图2符合相似范围内的示意3.2基于地域归属关系的自相似情况(3)从图3中可见,虽然有一些差距,但是在接受范围由于各个地市的用户的基数大小不同,对于一个小的内。中午有一个较小的批量业务高峰,但不至于有根本差地市而言,其办理的业务量不及大地市的1/10,但是从
8、分布别的图形,其相似度为0.921313。(系列2:某项业务)图形形状看,它们是必须一样的,即应该有同样的高峰出现时段,同样的忙闲时段,同样的业务分布。图3存在批量业务高峰示意图6基于地域归属关系的自相似情况-106-学
此文档下载收益归作者所有