欢迎来到天天文库
浏览记录
ID:26764993
大小:436.06 KB
页数:26页
时间:2018-11-29
《《大数据参考文献》word版》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库。
1、大数据研究综述陶雪娇,胡晓峰,刘洋(国防大学信息作战与指挥训练教研部,北京100091)研究机构Gartne:的定义:大数据是指需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。维基百科的定义:大数据指的是所涉及的资料量规模巨大到无法通过目前主流软件工具,在合理时间内达到撷取、管理、处理并整理成为帮助企业经营决策目的的资讯。麦肯锡的定义:大数据是指无法在一定时间内用传统数据库软件工具对其内容进行采集、存储、管理和分析的赞据焦合。数据挖掘的焦点集中在寻求数据挖掘过程中的可视化方法,使知识发现过程能够被用户理解,便于在知识发现过程中的人机交互;研究在
2、网络环境卜的数据挖掘技术,特别是在Internet上建立数据挖掘和知识发现((DMKD)服务器,与数据库服务器配合,实现数据挖掘;加强对各种非结构化或半结构化数据的挖掘,如多媒体数据、文本数据和图像数据等。5.1数据量的成倍增长挑战数据存储能力大数据及其潜在的商业价值要求使用专门的数据库技术和专用的数据存储设备,传统的数据库追求高度的数据一致性和容错性,缺乏较强的扩展性和较好的系统可用性,小能有效存储视频、音频等非结构化和半结构化的数据。目前,数据存储能力的增长远远赶小上数据的增长,设计最合理的分层存储架构成为信息系统的关键。5.2数据类型的多样性挑战数据挖掘能力数据类型的多样化,对传统的数
3、据分析平台发出了挑战。从数据库的观点看,挖掘算法的有效性和可伸缩性是实现数据挖掘的关键,而现有的算法往往适合常驻内存的小数据集,大型数据库中的数据可能无法同时导入内存,随着数据规模的小断增大,算法的效率逐渐成为数据分析流程的瓶颈。要想彻底改变被动局面,需要对现有架构、组织体系、资源配置和权力结构进行重组。5.3对大数据的处理速度挑战数据处理的时效性随着数据规模的小断增大,分析处理的时间相应地越来越长,而大数据条件对信息处理的时效性要求越来越高。传统的数据挖掘技术在数据维度和规模增大时,需要的资源呈指数增长,面对PB级以上的海量数据,N1ogN甚至线性复杂度的算法都难以接受,处理大数据需要简单
4、有效的人工智能算法和新的问题求解方法。5.4数据跨越组织边界传播挑战信息安全随着技术的发展,大量信息跨越组织边界传播,信息安全问题相伴而生,不仅是没有价值的数据大量出现,保密数据、隐私数据也成倍增长,国家安全、知识产权、个人信息等等都面临着前所未有的安全挑战。大数据时代,犯罪分子获取信息更加容易,人们防范、打击犯罪行为更加困难,这对数据存储的物理安全性以及数据的多副本与容灾机制提出了更高的要求。要想应对瞬息万变的安全问题,最关键的是算法和特征,如何建立相应的强大安全防御体系来发现和识别安全漏洞是保证信息安全的重要环节。5.5大数据时代的到来挑战人才资源从大数据中获取价值至少需要三类关键人才队
5、伍:一是进行大数据分析的资深分析型人才;二是精通如何申请、使用大数据分析的管理者和分析家;三是实现大数据的技术支持人才。此外,由于大数据涵盖内容广泛,所需的高端专业人才小仅包括程序员和数据库工程师,同时也需要天体物理学家、生态学家、数学和统计学家、社会网络学家和社会行为心理学家等。可以预测,在未来几年,资深数据分析人才短缺问题将越来越突显。同时,需要具有前瞻性思维的实干型领导者,能够基于从大数据中获得的见解和分析,制定相应策略并贯彻执行。大数据分析与处理方法分析孔志文(广东省民政职业技术学校,广州510310)二、大数据分析的基本方面大数据分析可以划分为五个基本方而。一是具有预测性分析能力。
6、分析员可以通过数据挖掘来更好地理解数据,而预测性分析是分析员在数据挖掘的基础上结合可视化分析得到的结果做出一些预测性的判断。二是具有数据质量和数据管理能力。数据管理和数据质量是数据分析的重点,是应用在管理方而的最佳实践,通过数据的标准化流程和工具,可以达到一个预先设定好的高质量的分析结果。三是具有可视化分析能力。可视化是服务于分析专家和使用用户的,数据可视化是数据分析的基木要求,它可以通过屏幕显示器直观地展示数据,提供给使用者,还可以让数据自己说话,让使用者听到结果。四是具有数据挖掘算法。可视化是给数据专家和使用用户提供的,数据挖掘是给机器使用的,通过集群、分割、孤立点分析等算法,深入数据内
7、部,挖掘使用价值,数据挖掘算法不仅要处理大量的大数据,也要保持处理大数据的运行速度。五是具有语义引擎。语义引擎能从“文档”中只能提取信息,解决了非结构化数据多样性带来的数据分析困扰,通过语义引擎,能解析、提取、分析数据,完成使用者所需要的信息提取。三、大数据处理方法1.大数据处理流程大数据整个处理流程可概括为四步。一是大数据采集过程。用户端数据通过多个数据库来接收,用户可以通过这些数据进行简单的查询和处理,在
此文档下载收益归作者所有