通用大数据存储和分析处理平台-hadoop

通用大数据存储和分析处理平台-hadoop

ID:34812849

大小:15.77 MB

页数:248页

时间:2019-03-11

通用大数据存储和分析处理平台-hadoop_第1页
通用大数据存储和分析处理平台-hadoop_第2页
通用大数据存储和分析处理平台-hadoop_第3页
通用大数据存储和分析处理平台-hadoop_第4页
通用大数据存储和分析处理平台-hadoop_第5页
资源描述:

《通用大数据存储和分析处理平台-hadoop》由会员上传分享,免费在线阅读,更多相关内容在应用文档-天天文库

1、通用大数据存储与分析处理平台总体建设方案(Hadoop)目录1Hadoop11.1概述11.1.1Hadoop能做什么11.2特点11.3软件设计11.3.1Hadoop中的文件格式11.3.2机架感知101.4Hadoop知识学习篇111.4.1RPC111.4.2Avro、Thrift111.4.3Java接口111.4.4FileSystem总结11.4.5文件读取过程/文件写入过程41.4.6Hadoop均衡器11.4.7Hadoop存档11.4.8数据完整性31.4.9压缩41.4.10

2、序列化【优点】61.4.11序列化框架111.4.12MapReduce过程中的序列化与反序列化201.4.13√HDFS数据结构251.4.14MapReduce框架261.4.15MapReduce工作机制391.4.16推测执行【优点】421.4.17重用JVM【优化】431.4.18IDS431.4.19输入格式431.4.20输出格式151.4.21计数器201.4.22√排序技术241.4.23√连接331.4.24DistributedCache381.4.25√作业链接421.4.2

3、6√默认的MapReduce作业431.4.27集群规范431.4.28网络拓扑[优点]441.4.29环境设置481.4.30守护进程的关键属性491.4.31安全性531.4.32安全模式531.4.33fsck工具531.4.34日常维护551.5Hadoop知识总结篇571.5.1Hadoop通信协议总结571.5.2通过日志掌握Hadoop运行过程(HDFS/MAPREDUCE)11.5.3MapReduce配置调优11.5.4MapReduce过程配置11.6应用程序运行JOB21.7H

4、adoop源码篇22Accumulo43海量数据查询支撑分系统43.1Dremel43.1.1概述43.1.2软件设计53.1.3一句话总结93.2Drill93.2.1概述93.3Tez103.4Impala***143.5Tajo***143.6序列化框架与RPC153.6.1Avro153.6.2Protocol153.6.3Thrift153.7缓存154算法研究*****164.1BloomFilter164.1.1集合表示和元素查询164.1.2错误率估计174.1.3最优的哈希函数个数

5、184.1.4位数组的大小184.1.5总结194.2BitMap(BitSet)204.2.1BitMap的基本思想204.2.2Map映射表224.2.3位移转换224.2.4扩展254.2.5Bit-Map的应用254.2.6Bit-Map的具体实现254.3哈希算法324.4二叉树434.5堆与堆排序434.6双层桶划分494.7trie树504.8外排序565海量数据处理思路585.1Bloomfilter805.2Hashing815.3bit-map825.4堆835.5双层桶划分83

6、5.6数据库索引845.7倒排索引(Invertedindex)845.8外排序855.9trie树866经典博文88从Hadoop框架与MapReduce模式中谈海量数据处理886.1.1前言886.1.2第一部分、mapreduce模式与hadoop框架深入浅出886.1.3架构扼要886.1.4Mapreduce模式896.1.5Hadoop框架906.1.6Hadoop的组成部分906.1.7第二部分、淘宝海量数据产品技术架构解读—学习海量数据处理经验926.1.8淘宝海量数据产品技术架构9

7、2mapreduce的二次排序SecondarySort951Hadoop1.1概述1.1.1Hadoop能做什么1、搜索引擎(DougCutting 设计Hadoop的初衷,为了针对大规模的网页快速建立索引)。2、大数据存储,利用Hadoop的分布式存储能力,例如数据备份、数据仓库等。3、大数据处理,利用Hadoop的分布式处理能力,例如数据挖掘、数据分析等。4、科学研究,Hadoop是一种分布式的开源框架,对于分布式计算有很大程度地参考价值。Ø大数据存储Ø海量数据批量处理:n排序、连接nETL(

8、去重、转化)n数据挖掘n日志处理n用户细分特征建模n个性化广告推荐n智能仪器推荐1.2特点1.高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。2.高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。3.高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。4.高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。5.低成本。与

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。