欢迎来到天天文库
浏览记录
ID:10451990
大小:55.00 KB
页数:4页
时间:2018-07-06
《应用benford法则和apriori算法对海量数据的审计分析 》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、应用Benford法则和Apriori算法对海量数据的审计分析〔摘要〕随着信息时代的飞速发展,被审计单位财务和业务数据量爆炸式增长,审计技术必须不断发展和创新以适应信息时代审计的新要求。本文在这一背景下,对审计技术的创新作了探索性的研究,主要通过Benford法则和Apriori算法的关联数据挖掘的技术手段在审计中的应用,探讨了如何在被审计单位海量数据中进行挖掘分析,从而发现有业务意义的强规则,通过这些强规则解释数位发生偏离的原因,从而快速发现审计疑点。 〔关键词〕Benford法则;Apriori算法;关联规则;审计数
2、据分析 1技术简介 1.1Benford法则简介 1.1.1Benford法则〔1〕的定义 1938年,通用电气公司物理学家FrankBenford收集了大量的数据集合后发现,人们处理较低数字开头的数值的频率较大。 1.1.2Benford法则的Benford分布 Benford分布属于第二代(secondgeneration)分布,描述了数据总体的客观分布规律,数据总体由其他分布中的抽样数据组成的分布。 2004年UtahStateUniversity的CindyDurtschi的研究〔2〕表明:
3、 (1)数字出现概率的期望值的标准偏差为: Z=(|P0-Pe|-1/2n)/Si (2)分布概率的Z统计量为: P0:实际的数据出现比率;Pe:根据Benford法则的预期出现比率;Si:某个数字的标准偏差;n:目标数据集的记录数。 1.1.3Benford分布中的数字频率上下限 (1)数字频率的上限: (2)数字频率的下限: 1.1.4Benford法则的应用范围 (1)可以针对海量数据进行挖掘分析,数据规模越大,分析结果越精确。 (2)会计舞弊调查〔3-5〕、审计〔6-8〕、税收监管〔9〕、金融分
4、析和反洗钱〔10〕。 1.2Apriori算法简介 Apriori算法〔11〕是一种对布尔关联规则频繁项集进行挖掘的算法。Apriori算法使用一种逐层搜索的迭代方法,即使用k-项集用于探索(k+1)-项集,其中k=1,2,3,…,n,n∈N,直到最终无法找到频繁(k+1)-项集,从而确定最终的频繁k-项集。 2应用Benford法则和Apriori算法对海量数据的审计分析 Benford法则和Apriori算法的联合数据挖掘在审计中的应用主要围绕为以下两个核心步骤展开: 2.1应用Benford法则发现
5、审计疑点 (1)判断数据的来源是否符合Benford法则的应用范围。 (2)对总体数据的一、二位有效数字进行Benford法则的符合性测试,初步发现对数据进行深入钻取的线索。 (3)对标准分布频率和实际分布频率进行比较,分析频率偏差,确定合理的钻取重点。 (4)根据分析结果和实际需要,进行更多位数字的进一步数据钻取和分析,直至发现目标数据。 钻取过程如图1所示。 2.2应用Apriori算法分析审计疑点 (1)采集通过Benford法则分析后输出的疑点数据集。 (2)整理疑点数据集以建立事务集,即Aprio
6、ri算法要求输入的数据集合。 (3)扫描事务集产生候选数据集合,并依据最小支持度筛选出频繁项集。 (4)频繁项集进行自关联,迭代第三、第四步,确定最终的频繁项集。 (5)依据最小置信度从频繁项集产生强规则。 (6)对强规则进行人工审计业务分析。 3应用案例 3.1应用Benford法则对审计疑点的发现过程 3.1.1确定审计数据和目标字段 分析某企业的凭证数据,从其记账凭证表accvouch摘取字段结构如表1所示: 3.1.2数据导入 将相应的目标数据表导入审计人员使用的数据库。3.1.3总体频
7、率计算 3.1.3.1数位的选取 以凭证T2000001和T2000002为例解释数位选取方式,如我们选取凭证编号T2000001的金额栏1000元的第一、二位数值为”10”,作为该笔记录的第一、二位数;我们选取凭证编号为T2000002的借方金额栏3029元的第一、二位数值为”30”,作为该笔记录的第一、二位数,如表2所示: 3.1.3.2数位分析 对记账凭证表accvouch中的借方金额字段前两位进行分析,第一、二数值为10的凭证纪录有540笔,全部记录有10149笔,因此第一、二位数为”10”频率为5.3%(
8、540/10149)。部分结果如图2所示。 3.1.4分析频率偏差 根据Benford分布的数字频率上限、数字频率下限和分布概率Z统计量的公式计算得到图2所示数据。 分析图2数据可以得出: (1)第一、二位数为”10”的实际频率为5.3%,高于Benford法则的理论上限4.53%,计算其Z统计
此文档下载收益归作者所有