全球大数据企业与技术全景图(上)infrastructure基础设施.docx

全球大数据企业与技术全景图(上)infrastructure基础设施.docx

ID:59226811

大小:67.46 KB

页数:23页

时间:2020-09-09

全球大数据企业与技术全景图(上)infrastructure基础设施.docx_第1页
全球大数据企业与技术全景图(上)infrastructure基础设施.docx_第2页
全球大数据企业与技术全景图(上)infrastructure基础设施.docx_第3页
全球大数据企业与技术全景图(上)infrastructure基础设施.docx_第4页
全球大数据企业与技术全景图(上)infrastructure基础设施.docx_第5页
资源描述:

《全球大数据企业与技术全景图(上)infrastructure基础设施.docx》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Hadoop分布式计算、大数据分析、云计算:是一个由Apache基金会所开发的分布式系统基础架构(Apache是世界使用排名第一的Web服务器软件)。优点1、Hadoop是一个能够对大量数据进行分布式处理的软件框架。Hadoop以一种可靠、高效、可伸缩的方式进行数据处理。2、Hadoop是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理,Hadoop按位存储和处理数据的能力值得人们信赖。3、Hadoop是高效的,因为它以并行的方式工作,通过并行处理加快处理速度,Hadoop能够在节点之间动

2、态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。4、Hadoop还是可伸缩的,能够处理PB级数据,Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。5、高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。6、此外,Hadoop成本比较低。依赖于社区服务,任何人都可以使用,与一体机、商用数据仓库以及QlikView、YonghongZ-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。7、Hadoop是一个能够让用户轻松架

3、构和使用的分布式计算平台,Hadoop带有用Java语言编写的框架,因此运行在Linux生产平台上是非常理想的。Hadoop上的应用程序也可以使用其他语言编写,比如C++,用户可以轻松地在Hadoop上开发和运行处理海量数据的应用程序。缺陷新的功能与稳定性目前还需完善,需要厂商和开源社区的大力支持,同时企业内部对于Hadoop的部署和使用经验不足,必须依赖于厂商的相关技术支持。Hadoop适合应用于大数据存储和大数据分析的应用,适合于服务器几千台到几万台的集群运行,支持PB级的存储容量。Hadoop典型应用有搜索、日志处理、推荐系统、数据分析

4、、视频图像分析、数据保存等,但Hadoop的使用范围远小于SQL或Python之类的脚本语言。Hadoop核心Hadoop的核心就是HDFS和MapReduce,而两者只是理论基础,不是具体可使用的高级应用,Hadoop旗下有很多经典子项目,比如HBase、Hive等,这些都是基于HDFS和MapReduce发展出来的。要想了解Hadoop,就必须知道HDFS和MapReduce是什么。HDFSHDFS(HadoopDistributedFileSystem,Hadoop分布式文件系统),它是一个高度容错性的系统,适合部署在廉价的机器上。HD

5、FS能提供高吞吐量的数据访问,适合那些有着超大数据集(largedataset)的应用程序。优点1、大数据文件,非常适合上T级别的大文件或者一堆大数据文件的存储,如果文件只有几个G甚至更小就没意思。2、文件分块存储,HDFS会将一个完整的大文件平均分块存储到不同计算器上,它的意义在于读取文件时可以同时从多个主机取不同区块的文件,多主机读取比单主机读取效率要高。3、流式数据访问,一次写入多次读写,这种模式跟传统文件不同,它不支持动态改变文件内容,而是要求让文件一次写入就不做变化,要变化也只能在文件末添加内容。4、廉价硬件,HDFS可以应用在普通

6、PC机上,这种机制能够让给一些公司用几十台廉价的计算机就可以撑起一个大数据集群。5、硬件故障,HDFS认为所有计算机都可能会出问题,为了防止某个主机失效读取不到该主机的块文件,它将同一个文件块副本分配到其它某几个主机上,如果其中一台主机失效,可以迅速找另一块副本取文件。MapReduceMapReduce是一套从海量源数据提取分析元素最后返回结果集的编程模型,将文件分布式存储到硬盘是第一步,而从海量数据中提取分析我们需要的内容就是MapReduce的任务如果计算的数组长度少的话,这样实现是不会有问题的,还是面对海量数据的时候就会有问题。Map

7、Reduce会这样做:首先数字是分布存储在不同块中的,以某几个块为一个Map,计算出Map中最大的值,然后将每个Map中的最大值做Reduce操作,Reduce再取最大值给用户。On-Premise(本地部署),IaaS(基础设施及服务)、PaaS(平台即服务)和SaaS(软件即服务)Hadoop领域3大热门初创公司——Cloudera、Hortonworks及MapR一、HadoopOn-PremiseCloudera肯睿Cloudera公司,它是一家专业从事基于ApacheHadoop的数据管理软件销售和服务的公司,它希望充当大数据领域中

8、类似RedHat在Linux世界中的角色。该公司基于ApacheHadoop发行了相应的商业版本ClouderaEnterprise,它还提供Hadoop相关的支持

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。