大数据平台简介复习过程.pptx

大数据平台简介复习过程.pptx

ID:57252140

大小:7.25 MB

页数:178页

时间:2020-08-02

大数据平台简介复习过程.pptx_第1页
大数据平台简介复习过程.pptx_第2页
大数据平台简介复习过程.pptx_第3页
大数据平台简介复习过程.pptx_第4页
大数据平台简介复习过程.pptx_第5页
资源描述:

《大数据平台简介复习过程.pptx》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、大数据平台简介目录Hadoop生态系统Hadoop主流厂商HDFSMapReduceHiveSparkHadoop生态系统Hadoop1.0V2.0Hadoop生态系统Ambari(安装部署工具)Zookeeper(分布式协调服务)HBase(分布式协数据库)Oozie(作业流调度系统)HDFS(分布式存储系统)YARN(分布式计算框架)MapReduce(离线计算)Tez(DAG计算)Spark(内存计算)HivePigMahoutSqoop(数据库TEL工具)Flume(日志收集)…………HDFS-HadoopDistributedFil

2、eSystemYarn-资源管理器MapReduce-分布式并行计算框架“你数一号书架,我数二号书架。我们人数多,数书就更快。这就是map;最后我们到一起,把所有人的统计数加在一起,就是reduce。”Spark-新一代大数据处理计算引擎YoucanrunSparkusingitsstandaloneclustermode,onEC2,onHadoopYARN,oronApacheMesos.AccessdatainHDFS,Cassandra,HBase,Hive,Tachyon,andanyHadoopdatasource.HBase-N

3、oSQL数据库Hive-hadoop的数据仓库Pig-大规模数据分析平台Pig是一个基于Hadoop的大规模数据分析平台,它提供的SQL-LIKE语言叫PigLatin,该语言的编译器会把类SQL的数据分析请求转换为一系列经过优化处理的MapReduce运算。Pig为复杂的海量数据并行计算提供了一个简单的操作和编程接口。Apachepig是用来处理大规模数据的高级查询语言,配合Hadoop使用,可以在处理海量数据时达到事半功倍的效果,比使用Java,C++等语言编写大规模数据处理程序的难度要小N倍,实现同样的效果的代码量也小N倍。A=LOAD

4、'a.txt'AS(col1:chararray,col2:int,col3:int,col4:int,col5:double,col6:double);B=GROUPABY(col2,col3,col4);C=FOREACHBGENERATEgroup,AVG(A.col5),AVG(A.col6);DUMPC;Mahout-机器学习算法库Mahout是ApacheSoftwareFoundation(ASF)旗下的一个开源项目,提供一些可扩展的机器学习领域经典算法的实现,旨在帮助开发人员更加方便快捷地创建智能应用程序。Mahout包含许多

5、实现,包括聚类、分类、推荐过滤、频繁子项挖掘。此外,通过使用ApacheHadoop库,Mahout可以有效地扩展到云中。Zookeeper-分布式协调服务Sqoop-Hadoop与关系数据库间的数据同步工具Flume-分布式日志采集工具Amari-Hadoop集群安装部署监控工具Hadoop主流厂商大数据领域的三驾马车ClouderaHortonworksMapRClouderaDistributionHadoop(CDH)HortonworksDataPlatform(HDP)MapRConvergedDataPlatformHadoop

6、主流厂商比较开源开源管理开源管理架构创新完全开源收取服务费工具不开源收取License费用重构了底层内核收取License费用云服务集团软件集团浪潮大数据平台产品HDP云海InsightHDIndataHDHDFS相关背景资料Hadoop:一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。Distributed:分布式计算是利用互联网上的计算机的CPU的共同处理能力来解决大型计算问题的一种计算科学。Filesystem:文件系统是操作系统用于明确磁盘或分

7、区上的文件的方法和数据结构;即在磁盘上组织文件的方法。也指用于存储文件的磁盘或分区,或文件系统种类。Hadoop和HDFS的关系Hadoop是一个以一种可靠、高效、可伸缩的方式进行处理的,能够对大量数据进行分布式处理的系统框架。HDFS是Hadoop兼容最好的标准级文件系统,因为Hadoop是一个综合性的文件系统抽象,所以HDFS不是Hadoop必需的。所以可以理解为hadoop是一个框架,HDFS是hadoop中的一个部件。HDFS背景介绍随着数据量越来越大,在一个操作系统管辖的范围存不下了, 那么就 分配到更多的操作系统管理的磁盘中, 但

8、是不方便管理和维护,迫切需要一种系统来管理多台机器上的文件,这就是分布式文件管理系统。分布式文件系统:一种允许文件通过网络在多台主机上分享的文件系统,可以让多个机器

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。