[整理]大数据介绍教学讲义ppt课件.ppt

[整理]大数据介绍教学讲义ppt课件.ppt

ID:62045615

大小:2.95 MB

页数:116页

时间:2021-04-13

[整理]大数据介绍教学讲义ppt课件.ppt_第1页
[整理]大数据介绍教学讲义ppt课件.ppt_第2页
[整理]大数据介绍教学讲义ppt课件.ppt_第3页
[整理]大数据介绍教学讲义ppt课件.ppt_第4页
[整理]大数据介绍教学讲义ppt课件.ppt_第5页
资源描述:

《[整理]大数据介绍教学讲义ppt课件.ppt》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、大数据介绍海量数据的高存储成本大数据量下的数据处理性能不足流式数据处理缺失有限的扩展能力数据扩展性需求和硬件性能之间存在差距传统的数据处理系统面临的问题,呼唤新的技术1目前数据系统架构存在问题三、各处理流程相关技术简析数据预处理SQL与HBASE、HIVE之间进行内容传递时,需要一个数据转移工具,如Sqoop。其工作过程如下:MapMapMapHDFS/HIVE/HBaseSQLSqoopSqoopSqoopSqoop三、各处理流程相关技术简析数据存储HDFS结构三、各处理流程相关技术简析数据存储三、各处理流程相关技术简析数据分析

2、挖掘HIVE查询统计用户行为数据机器学习、数据挖掘、语义搜索……HDFSHIVE数据仓库Maout挖掘数据价值MapReduceMapReduce三、各处理流程相关技术简析数据展现聚类算法结果展示方案采用的Hadoop模块列表HDFS,用于大规模数据存储Yarn,系统资源管理Hive,基于Mapreduce的SQL数据访问Pig,脚本式数据处理Storm,流式数据处理Spark/SparkStreaming,内存计算框架HBase,Key-Value数据存储MapReduce,离线批处理计算框架Kafka,消息队列式流失数据接入H

3、Catlog,元数据管理Ambari,Hadoop平台监控、管理界面ZooKeeper,保证系统无单点运行Oozie,工作流式任务调度揭开Hadoop神秘的面纱Hadoop是Apache基金会的一个项目总称,主要由HDFS、Yarn、MapReduce和HBase等组成。HDFS是对GoogleGFS的开源实现,MapReduce是对GoogleMapReduce的开源实现,HBase是GoogleBigTable的开源实现。Hadoop来源于其创始人DougCutting的儿子给一头黄色大象取的名字。Hadoop最初只与网页索引

4、有关,迅速发展成为分析大数据的领先平台。HDFS原理简介-分布式文件系统HDFS主要特点:存储大文件将大文件分割成很多小块存储流式数据读取,“writeonereadmany”本身是分布式的,具备良好的可扩展性框架可以运行在任何普通的PC上。通过放开POSIX要求,极大改善数据读写性能HDFS不适合于:存储大量小文件(<1MB)实时数据读取需经常修改数据的场景HDFSYARNHiveMapReduceHBaseZooKeeperBookKeeperAVROPigSqoopNN#1DataNode,文件就放它上了。NameNode,

5、元数据信息都在这。文件被切分成大小相同的块(最末尾的块可能小于块大小),并存储在不同的数据节点上。为确保文件块的容错性,同时提供更快的数据读取,默认每个数据块有3个副本,且分布在不同的数据节点DN上。FileAFileBFileCACBABCDN#1DN#2DN#3BDN#4CDN#5ADN#6FileDDDDHBase原理简介-分布式数据库HRegionServer内部管理了一系列HRegion对象,每个HRegion对应Table中的一个Region。HRegion由多个Store组成。每个Store对应Table中的一个Co

6、lumnFamily的存储,即一个Store管理一个Region上的一个列族(CF)。每个Store包含一个MemStore和0到多个StoreFile。Store是HBase的存储核心,由MemStore和StoreFile组成。HBase是一个高可靠、高性能、面向列、可伸缩的分布式存储系统,利用Hbase技术可在廉价PCServer上搭建大规模结构化存储集群。HBase是GoogleBigtable的开源实现,与GoogleBigtable利用GFS作为其文件存储系统类似,HBase利用HadoopHDFS作为其文件存储系统;

7、Google运行MapReduce来处理Bigtable中的海量数据,HBase同样利用HadoopMapReduce来处理HBase中的海量数据;GoogleBigtable利用Chubby作为协同服务,HBase利用Zookeeper作为对应有人问HBase和HDFS是啥关系,HBase是利用HDFS的存储的,就像MySQL和磁盘,MySQL是应用,磁盘是具体存储介质。HDFS因为自身的特性,不适合随机查找,对更新操作不太友好,比如百度网盘就是拿HDFS构建的,它支持上传和删除,但不会让用户直接在网盘上修改某个文件的内容。HB

8、ase的表有以下特点:1)大:一个表可以有上亿行,上百万列。2)面向列:面向列表(簇)的存储和权限控制,列(簇)独立检索。3)稀疏:对于为空(NULL)的列,并不占用存储空间,因此,表可以设计的非常稀疏。HBase提供的访问方式有命令行shell方

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。