欢迎来到天天文库
浏览记录
ID:19536374
大小:92.50 KB
页数:6页
时间:2018-10-03
《定稿:孤立点数据挖掘技术在审计信息化中应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、孤立点数据挖掘技术在审计信息化中的应用研究ApplicationofauditingInformationizationwiththeOutlierDataMingTechnology周喜曾丽(湖南商学院,会计学院,湖南长沙410205)摘要:孤立点分析技术是数据挖掘的重要内容之一,可广泛应用到电信、信用卡欺骗检测、贷款审批、客户分类、气象预报和网络入侵检测等领域。在审计工作中,也可采用孤立点检测算法对审计数据进行判断和检测是否存在异常,帮助审计人员及时发现隐藏的审计线索,提高审计效率,孤立点数据挖掘技术比发现规律性的其他挖掘技术具有更好的现实应用价值
2、。关键词:审计信息化;孤立点分析;数据挖掘一、引言:随着信息技术的不断发展及企业数据库管理信息系统的数据海量增加,传统以查账为主审计方法将遇到计算机技术的挑战,让审计人员不得不重新调整作业方法,选择计算机审计方式检查被审计单位的经济活动,发挥现代审计监督的作用[1]。目前,虽然有许多通用软件公司开发了相关的审计人员,也加快了我国审计信息化的步伐,但也由于这些软件的功能较局限,让企业审计信息化的内容基本是传统审计方法及流程计算机化而已。如审计人员依据统计方法、法律规则以及审计经验建立查询分析模型,然后对被审计单位的业务上可能违规的现象做一个假设,再通过电
3、子数据来检验假设,这都要求审计人员有非常丰富的工作经验,而违规假设方法也大大增加了审计人员的工作量。这种方法先进的信息技术含量较少,也严重影响了我国审计信息化的发展深度,如何充分利用先进信息化技术,如孤立点分析技术去发现海量数据中隐藏或未知的信息,让“智能”的数据处理方法帮助审计人员迅速发现异常交易或事项,快速确定审计事项及重点,提高审计效率,降低审计成本及风险,是未来审计信息化研究的重点和难点[2]。目前,国内研究审计软件、审计信息化和数据挖掘在审计中的应用的学者并不多,其中,著名的学者有南京审计学院陈伟副教授对审计软件现状及发展趋势、基于数据匹配技
4、术的审计证据获取方法和信息系统审计新的安全服务模式都进行了较深的研究;吕新民教授对信息化环境下审计项目管理及数据挖掘在审计数据分析中的应用方面都出了研究水平较高的学术论文;陈丹萍教授和杭州电子科技大学辛金国等人对基于数据挖掘技术的联网审计进行了较深入的研究;华南理工大学的张炳才等人对基于欧式距离孤立点挖掘方法在审计中的应用进行了相关的研究等。二、数据挖掘技术数据挖掘是从大量的、不完全的、随机的、模糊的和在噪声的实际应用数据中发现趋势、规则和模式的过程,他融合了现代统计、决策理论、数据库管理和机器学习等多学科的知识,这门广义的交叉学科徽剧了不同领域的研究
5、者,如数据库、并行计算、数理统计、可视化和人工智能等方面的学者和工程技术人员。数据挖掘技术一般分为聚类分析、分类分析、关联分析、序列分析、时间序列分析、依赖关系分析、偏差分析和孤立点分析等。数据挖掘基本过程分为:问题定义、数据收集、数据预处理、数据挖掘和结果解释及评估。数据挖掘主要算法及方法包括神经网络(NeuralNetworks)、序列模式分析(SequentialPattern)、决策树(DecisionTree)、遗传算法(GenticAlgorithous)、模糊算法(FuzzyAlgorithous)、聚类分析(ClusterAnalysi
6、s)、粗糙集规则(RoughSetRule)、关联分析(AssoliantionAnalysis)等[3]。三、孤立点分析定义及方法孤立点分析(OutlierDetection)是指数据集中可能包含一些不符合数据一般模型与行为的对象,如部分极端值等。孤立点分析也是数据挖掘中一个重要的研究方向。如在金融行业里,可利用基于孤立点分析的欺诈模型对每个信用卡客户近期及历史用卡行为进行分析,如检测到不寻常的信用卡使用情况,就拟确定为交易有欺诈行为,及时与持卡人联系确认交易是否存在欺诈,银行是否予以授权、是否冻结对方资金等操作。孤立点分析方法包括基于统计(分布)的
7、孤立点检测、基于距离的孤立点检测、基于密度的孤立点检测、基于聚类的孤立点检测、基于偏离的孤立点检测、基于深度孤立点检测等六种方法。3.1基于统计(分布)的孤立点检测方法统计方法是先假设在给定的数据集合有一个分布或概率模型,然后采用不一致性检验来定义和发现孤立点。基于统计(分布)的方法虽然易于理解,实现起来也较为方便,但只对数据分布满足某种概率分布的数值型单变量(属性)数据才有效,不适合用于多维空间的孤立点检测。因此,基于统计(分布)的孤立点检测方法应用范围受到大大的限制。3.2基于距离的孤立点检测方法为了有效的避免基于统计(分布)方法中的数据分布适应性
8、的限制,拓宽多个标准分布的不一致检测的思想,Knorr和NG引入了基于距离的孤立点的概念,他们
此文档下载收益归作者所有