欢迎来到天天文库
浏览记录
ID:23520667
大小:168.50 KB
页数:13页
时间:2018-11-08
《大数据职业发展方向》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库。
1、word资料下载可编辑大数据职业发展方向一、大数据的概念及特点:大数据本身就是一个很抽象的概念,提及大数据很多人也只能从数据量上去感知大数据的规模,大数据被定义为“代表着人类认知过程的进步,数据集的规模是无法在可容忍的时间内用目前的技术、方法和理论去获取、管理、处理的数据。大数据不是一种新技术,也不是一种新产品,而是一种新现象,是近来研究的一个技术热点。大数据具有以下4个特点,即4个“V”:(1)数据体量(Volumes)巨大。大型数据集,从TB级别,跃升到PB级别。(2)数据类别(Variety)繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定的结
2、构化数据范畴,囊括了半结构化和非结构化数据。(3)价值(Value)密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅一两秒钟。(4)处理速度(Velocity)快。包含大量在线或实时数据分析处理的需求,1秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。二、大数据处理流程:从大数据的特征和产生领域来看,大数据的来源相当广泛,由此产生的数据类型和应用处理方法千差万别。但是总的来说,大数据的基本处理流程大都是一致的。
3、整个处理流程可以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。三、大数据分解结构:第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。我会从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;从对大数据的现在和未来去洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。第二层面是技术,技术是大数据价值体现的手段和前进的基石。我将分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。第三层面是实践,实践
4、是大数据的最终价值体现。。专业技术资料word资料下载可编辑四、大数据相关的技术:1、云技术——大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。专业技术资料word资料下载可编辑2、分布式处理技术:——分布式处理系统可以将不同地点的或具有不同功能的或拥有不同数据的多台计算机用通信网络连接起来,在控制系统的统一管理控制下,协调地完成信息处理任务-这就是分布式处理系统的定义。目前最常用的是Hadoop技术,Hadoop是一个实现了MapR
5、educe模式的能够对大量数据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop用到的一些技术有:HDFS:Hadoop分布式文件系统(DistributedFileSystem)-HDFS(HadoopDistributedFileSystem)MapReduce:并行计算框架HBase:类似GoogleBigTable的分布式NoSQL列数据库。Hive:数据仓库工具。Zookeeper:分布式锁设施,提供类似GoogleChubby的功能。Avro:新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。P
6、ig:大数据分析平台,为用户提供多种接口。Ambari:Hadoop管理工具,可以快捷的监控、部署、管理集群。Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。3、存储技术——大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。4、感知技术——大数据的采集和感知技术的发展是紧密联系的。以传感器技术,指纹识别技术,RFID技术,坐标定位技术等为基础的感知能力提升同样是物联网发展的基石。五、大数据人才方向:目前,大数据方面主要有五大人才方向:※大数据核心研发方向(系统研发);※大数据性能调优方向;※大数据挖掘
7、、分析方向;※大数据运维、云计算方向※数据分析师方向(CDA、CPDA)大数据是一项基于Java的分布式架构技术,用来管理及分析海量数据。专业技术资料word资料下载可编辑大数据核心研发(系统研发)方向:基础课程篇:1、Java——基础课程(大数据任何方向必学内容)2、Linux基础——基础课程(大数据任何方向必学内容)3、Shell编程——从程序员的角度来看,Shell本身是一种用C语言编写的程序,从用户的角度来看,Shell是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执行,又可以利用Shell脚本编程,完成更加复杂的操作。软件语言篇:4、Ha
8、doop——是一个开发和运行处理大规模数据的软件平台
此文档下载收益归作者所有