hadoop、mpp技术介绍、对比和应用

hadoop、mpp技术介绍、对比和应用

ID:25565393

大小:2.68 MB

页数:80页

时间:2018-11-21

hadoop、mpp技术介绍、对比和应用_第1页
hadoop、mpp技术介绍、对比和应用_第2页
hadoop、mpp技术介绍、对比和应用_第3页
hadoop、mpp技术介绍、对比和应用_第4页
hadoop、mpp技术介绍、对比和应用_第5页
资源描述:

《hadoop、mpp技术介绍、对比和应用》由会员上传分享,免费在线阅读,更多相关内容在行业资料-天天文库

1、WORD格式可编辑大数据技术介绍(Hadoop与MPP部分,包含与传统技术的区别)版本号:1.0.0专业知识整理分享WORD格式可编辑目录1概述51.1大数据及大数据技术51.2引入大数据的意义51.3术语、定义和缩略语52大数据技术的引入62.1传统数据仓库数据特征72.2大数据技术应用场景82.3Hadoop与MPP与传统数据库技术对比与适用场景83Hadoop实施指导意见93.1应用场景93.2前期方案设计阶段的建议103.2.1对Hadoop软件选择的建议103.2.2所需硬件设备建议133.2.3组网方式建议15

2、3.2.4规划节点规模时需要考虑的因素183.3建设过程中的建议193.3.1对压缩的考虑193.3.2HBase设计203.3.3参数设置建议213.3.4系统调优263.3.5上线前注意事项313.3.6上线后效果评估323.4运维阶段的建议323.4.1任务调度333.4.2监控管理333.4.3告警管理343.4.4部署管理343.4.5配置管理34专业知识整理分享WORD格式可编辑3.4.6安全管理343.4.7日志管理353.5组织和培训建议353.5.1人员安排建议363.5.2培训建议364MPP数据库指导

3、意见374.1应用场景374.1.1数据集市374.1.2数据分级存储(历史库或者明细库)374.1.3ETL384.1.4小结394.2前期方案设计阶段的建议394.2.1软件平台选型建议394.2.2容量评估方法建议414.2.3网络评估方法建议414.3建设过程中的建议424.3.1数据分布规划424.3.2故障与恢复策略规划444.4运维阶段的建议454.4.1系统监控454.4.2告警管理454.4.3SQL监控464.4.4备份恢复464.4.5安全及权限控制464.4.6扩容及数据重分布464.4.7开发工具

4、474.5组织和培训建议475系统集成建议475.1数据互通的建议485.1.1方式分析48专业知识整理分享WORD格式可编辑5.1.2技术实现485.2统一管理495.3透明访问506附录A-大数据技术介绍516.1Hadoop及生态圈516.1.1Hadoop简介516.1.2Hadoop生态圈系统586.1.3Hadoop1.0特性606.1.4Hadoop2.0特性616.1.5Hadoop选型636.1.6HadoopHA方案对比646.2MPP数据库676.2.1数据库架构风格676.2.2MPP数据库基本架构

5、686.2.3MPP数据库主要运行机制696.2.4MPP平台技术规范和要点706.3X86服务器平台716.4网络726.4.1InfiniBand726.4.2万兆网756.4.3千兆网766.4.4适用场景766.5硬盘776.5.1硬盘类型介绍776.5.2硬盘比较分析776.5.3硬盘选购建议786.6虚拟化796.6.1概念796.6.2虚拟化技术介绍806.6.3适用场景80专业知识整理分享WORD格式可编辑1概述1.1大数据及大数据技术大数据(BigData)的定义众说纷纭,从技术讲上它通常具备数据量大(v

6、olume)、数据类型多(variety)和数据处理和响应速度快(velocity)的特征。麦肯锡定义大数据为超过了常规数据库软件所能搜集/存储/管理和分析的规模的数据集。大数据处理技术可以认为是处理大数据以便从中获取价值的技术。大数据及其技术正在影响着IT产业,利用Hadoop和关系数据库混搭来解决大数据难题是当前通常采用的方法。1.2引入大数据的意义引入原则传统数据仓库系统已经建设运营十年,新技术的引入不能影响原有的使用感知,需要按照分阶段逐步引入的方式。可以参考如下的几个引入原则:1、先增量后存量。现有的数据处理系统

7、引入大数据处理技术,面临着模型改造、流程改造等一系列的问题,可以首先在新上线应用引入大数据处理技术。2、先边缘后核心。对于原有功能的迁移,可以先迁移非关键的应用。这些应用不涉及到关键生产任务,可以忍受数据处理延迟和故障修复时间较高等可能出现的风险。3、先简单后复杂。数据处理逻辑较简单的应用也可以首先尝试引入大数据处理技术,降低实施的复杂度,积累运维经验。通过在大数据处理技术的规划、实施及运维过程中积累经验及教训,不断提升和完善大数据技术的应用水平,逐步拓展大数据技术应用领域。1.3术语、定义和缩略语名词解释Hadoop一个

8、开源的分布式系统基础架构,由Apache基金会开发。专业知识整理分享WORD格式可编辑基于Hadoop框架,用户可以方便的开发分布式程序,充分利用集群的威力高速运算和存储。MapReduceMapReduce是Hadoop一种并行计算框架,用于大规模数据集的并行运算,其缩略语为MR。Hive是基于Had

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。