欢迎来到天天文库
浏览记录
ID:43880521
大小:39.55 KB
页数:13页
时间:2019-10-16
《大数据技术在金融行业内部审计中的应用探究》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、大数据技术在金融行业内部审计中的应用探究一、大数据及基本技术概述(一)大数据概述作为一个新兴概念,大数据至今尚未有明确统一的定义。大数据研究先驱麦肯锡公司(McKinsey&Company)认为,大数据指的是大小超出常规数据库软件的采集、存储、管理和分析等能力的数据集。这一定义包含两方面的意义:第一,随着时间推移和技术进步,符合大数据标准的数据集的大小会有所变化;第二,不一定要超过特定容量值的数据才算是大数据。此外,大数据研究机构高德纳咨询公司(GartnerGroup)也对大数据给出定义:大数据是需要高效创新的处理模式来提高洞察力、增强决策力的海量、
2、快速和多样化的信息资产。这一定义提出了大数据的三大特征:大量化(Volume)、快速化(Velocity)和多样化(Variety),简称大数据的“3V”特点。近年来,随着对大数大数据技术在金融行业内部审计中的应用探究一、大数据及基本技术概述(一)大数据概述作为一个新兴概念,大数据至今尚未有明确统一的定义。大数据研究先驱麦肯锡公司(McKinsey&Company)认为,大数据指的是大小超出常规数据库软件的采集、存储、管理和分析等能力的数据集。这一定义包含两方面的意义:第一,随着时间推移和技术进步,符合大数据标准的数据集的大小会有所变化;第二,不一定要
3、超过特定容量值的数据才算是大数据。此外,大数据研究机构高德纳咨询公司(GartnerGroup)也对大数据给出定义:大数据是需要高效创新的处理模式来提高洞察力、增强决策力的海量、快速和多样化的信息资产。这一定义提出了大数据的三大特征:大量化(Volume)、快速化(Velocity)和多样化(Variety),简称大数据的“3V”特点。近年来,随着对大数据的深入研究,大数据的特点逐渐由“3V”演变为“4V”甚至更多,包括:真实性(Veracity)>价值(Value)、可变性(Variability)>有效性(Validity)、波动性(Volatil
4、ity)、复杂性(Complexity)等等,图1.1展示了大数据的特点。(二)大数据技术根据大数据处理的生命周期,大数据技术体系中的关键技术包括:非结构化数据采集技术、数据清洗筛选技术、数据分布式存储系统、数据并行计算分析技术、数据可视化技术等。1•非结构化数据采集技术。大数据时代,数据信息来源十分广泛,包括手机、电脑、网络、卫星、社交媒体、交通工具、射频信号、电子发射器等。从这些渠道所采集的数据往往格式不一,对大量数据进行格式转换的效率低下,并会增加数据采集的难度。据统计,在现有大数据存储系统中,非结构化数据和半结构化数据约占80%,因此,传统的数
5、据采集工具已经无法满足时代的需要,非结构化数据采集技术必不可少。如今,大多数互联网企业都建立了自己的大数据采集系统,例如:Facebook的Scribe系统、Cloudera的Flume系统、Apache的Chukwa系统、Linkedin的Kafka系统等。这些非结构化数据采集系统具有良好的可扩展性和容错机制,并且是开源的系统,用户可以根据不同需要选择适合的数据采集技术。2•数据清洗筛选技术。在大数据采集之后,需要对海量数据进行简单的预处理,主要包括清洗技术和筛选技术。这两项大数据技术适用于将网络中的大量损坏、冗余、无用的数据进行彻底清理,优化多源数
6、据和多模式数据,对采集来的数据进行整合,将高质量数据转化为信息,并加以提取用于分析。因此,数据清洗筛选技术能够控制不同来源的数据质量,为数据分析提供基础性的技术保障。Hadoop平台正是为了加快数据清理、数据转换、数据加载进程,提高并行数据预处理而开发的。概括来说,Hadoop是」系列开源产品的组合,其核心的内容是:HDFS(HadoopDistributedFileSystem)和MapReduce,HDFS可以为海量数据提供存储功能,MapReduce则为海量数据提供计算。3.数据分布式存储系统。非结构化数据存储于分布式文件系统中,因而分布式存储系
7、统在大数据时代相当重要。传统的数据存储系统采用集中的方式,将所有数据存储于…台服务器中,存储服务器的可靠性和安全性成为系统性能的瓶颈,也无法满足大规模数据存储应用的需要。而分布式数据存储系统采用可扩展的系统结构,借助多台服务器分担存储负荷,利用位置服务器定位存储信息,不仅可以提高系统整体的可靠性、安全性、可用性和存取效率,还具备可扩展功能。目前,常见的数据分布式存储系统主要有:GFS(GoogleFileSystemHDFS、Lustre并行分布式文件系统、Ceph存储系统等。以HDFS为例,图1.2展示了数据分布式存储系统的运行模式。4.数据并行计算
8、分析技术。对于混合负载的大数据库进行分析处理是十分复杂困难的,对海量数据进行依次顺序计算分析不
此文档下载收益归作者所有