大数据技术在金融行业内部审计中的应用探究

大数据技术在金融行业内部审计中的应用探究

ID:43880521

大小:39.55 KB

页数:13页

时间:2019-10-16

大数据技术在金融行业内部审计中的应用探究_第1页
大数据技术在金融行业内部审计中的应用探究_第2页
大数据技术在金融行业内部审计中的应用探究_第3页
大数据技术在金融行业内部审计中的应用探究_第4页
大数据技术在金融行业内部审计中的应用探究_第5页
资源描述:

《大数据技术在金融行业内部审计中的应用探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、大数据技术在金融行业内部审计中的应用探究一、大数据及基本技术概述(一)大数据概述作为一个新兴概念,大数据至今尚未有明确统一的定义。大数据研究先驱麦肯锡公司(McKinsey&Company)认为,大数据指的是大小超出常规数据库软件的采集、存储、管理和分析等能力的数据集。这一定义包含两方面的意义:第一,随着时间推移和技术进步,符合大数据标准的数据集的大小会有所变化;第二,不一定要超过特定容量值的数据才算是大数据。此外,大数据研究机构高德纳咨询公司(GartnerGroup)也对大数据给出定义:大数据是需要高效创新的处理模式来提高洞察力、增强决策力的海量、

2、快速和多样化的信息资产。这一定义提出了大数据的三大特征:大量化(Volume)、快速化(Velocity)和多样化(Variety),简称大数据的“3V”特点。近年来,随着对大数大数据技术在金融行业内部审计中的应用探究一、大数据及基本技术概述(一)大数据概述作为一个新兴概念,大数据至今尚未有明确统一的定义。大数据研究先驱麦肯锡公司(McKinsey&Company)认为,大数据指的是大小超出常规数据库软件的采集、存储、管理和分析等能力的数据集。这一定义包含两方面的意义:第一,随着时间推移和技术进步,符合大数据标准的数据集的大小会有所变化;第二,不一定要

3、超过特定容量值的数据才算是大数据。此外,大数据研究机构高德纳咨询公司(GartnerGroup)也对大数据给出定义:大数据是需要高效创新的处理模式来提高洞察力、增强决策力的海量、快速和多样化的信息资产。这一定义提出了大数据的三大特征:大量化(Volume)、快速化(Velocity)和多样化(Variety),简称大数据的“3V”特点。近年来,随着对大数据的深入研究,大数据的特点逐渐由“3V”演变为“4V”甚至更多,包括:真实性(Veracity)>价值(Value)、可变性(Variability)>有效性(Validity)、波动性(Volatil

4、ity)、复杂性(Complexity)等等,图1.1展示了大数据的特点。(二)大数据技术根据大数据处理的生命周期,大数据技术体系中的关键技术包括:非结构化数据采集技术、数据清洗筛选技术、数据分布式存储系统、数据并行计算分析技术、数据可视化技术等。1•非结构化数据采集技术。大数据时代,数据信息来源十分广泛,包括手机、电脑、网络、卫星、社交媒体、交通工具、射频信号、电子发射器等。从这些渠道所采集的数据往往格式不一,对大量数据进行格式转换的效率低下,并会增加数据采集的难度。据统计,在现有大数据存储系统中,非结构化数据和半结构化数据约占80%,因此,传统的数

5、据采集工具已经无法满足时代的需要,非结构化数据采集技术必不可少。如今,大多数互联网企业都建立了自己的大数据采集系统,例如:Facebook的Scribe系统、Cloudera的Flume系统、Apache的Chukwa系统、Linkedin的Kafka系统等。这些非结构化数据采集系统具有良好的可扩展性和容错机制,并且是开源的系统,用户可以根据不同需要选择适合的数据采集技术。2•数据清洗筛选技术。在大数据采集之后,需要对海量数据进行简单的预处理,主要包括清洗技术和筛选技术。这两项大数据技术适用于将网络中的大量损坏、冗余、无用的数据进行彻底清理,优化多源数

6、据和多模式数据,对采集来的数据进行整合,将高质量数据转化为信息,并加以提取用于分析。因此,数据清洗筛选技术能够控制不同来源的数据质量,为数据分析提供基础性的技术保障。Hadoop平台正是为了加快数据清理、数据转换、数据加载进程,提高并行数据预处理而开发的。概括来说,Hadoop是」系列开源产品的组合,其核心的内容是:HDFS(HadoopDistributedFileSystem)和MapReduce,HDFS可以为海量数据提供存储功能,MapReduce则为海量数据提供计算。3.数据分布式存储系统。非结构化数据存储于分布式文件系统中,因而分布式存储系

7、统在大数据时代相当重要。传统的数据存储系统采用集中的方式,将所有数据存储于…台服务器中,存储服务器的可靠性和安全性成为系统性能的瓶颈,也无法满足大规模数据存储应用的需要。而分布式数据存储系统采用可扩展的系统结构,借助多台服务器分担存储负荷,利用位置服务器定位存储信息,不仅可以提高系统整体的可靠性、安全性、可用性和存取效率,还具备可扩展功能。目前,常见的数据分布式存储系统主要有:GFS(GoogleFileSystemHDFS、Lustre并行分布式文件系统、Ceph存储系统等。以HDFS为例,图1.2展示了数据分布式存储系统的运行模式。4.数据并行计算

8、分析技术。对于混合负载的大数据库进行分析处理是十分复杂困难的,对海量数据进行依次顺序计算分析不

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。