hadoop基本原理与入门实践

hadoop基本原理与入门实践

ID:24768499

大小:6.37 MB

页数:119页

时间:2018-11-14

hadoop基本原理与入门实践_第1页
hadoop基本原理与入门实践_第2页
hadoop基本原理与入门实践_第3页
hadoop基本原理与入门实践_第4页
hadoop基本原理与入门实践_第5页
资源描述:

《hadoop基本原理与入门实践》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Hadoop基本原理与入门实践网络文化与数字传播中心北京市重点实验室讲述内容干货奉上第1章Hadoop的起源第2章hadoop环境配置第3章Hadoop实战(wordcount与倒排索引)更多内容第4章Hadoop细节什么是大数据一个交易系统中的大数据是什么看看现在公司核心业务是什么;并由此产生了多少数据,又有多少数据是公司要处理的。但是一个传统平台并没有这么高的成本效益来处理大数据;企业需要一个很好的平台能够搜集所有有效的数据:有效地处理大量数据,与系统进行交互和通信——这就是Hadoop。那么小型数据平台和大型数据平台又有什么区别?首先水平扩展性,这是一个很有挑

2、战性的问题;必须能够方便的使用并且能够非常灵活在一些不同的应用中使用,也能在虚拟的云计算中使用的平台。这就是企业所期待的平台——大数据平台。hadoop的起源Hadoop开始时时nutch的一个子项目,而nutch又是ApacheLucene的子项目。这三个项目都是由DoungCutting创立,每个项目都是上一个项目的演进。Lucene是搜索引擎开发工具包,提供了一个纯Java的高性能全文检索,他可以方便嵌入实际应用中实现全文搜索、索引功能。Nutch项目始于2002年,是以Lucene为基础的实现的搜索引擎应用。Lucene为nutch提供了文本搜索和索引API

3、,Nutch不光有搜索功能,还有数据抓取功能。很快,DougCutting和Mike(Hadoop和Nutch的另一位创始人)就意识到,他们的架构无法扩展支持数以十亿的网页。这时候,Google的研究人员在2003ACM会议上发表描述了谷歌的分布式文件系统,即GFS的论文,即时为他们提供了帮助,解决了网络抓取和索引过程中产生大量文件存储的需求,于是,他们开始写GFS的一个开源实现,即Nutch的分布式文件系统,NDFS。2004年2004年,google发表论文介绍了他们的MapReduce系统。2005年,Nutch开发人员在Nutch上实现了第一个MapRedu

4、ce系统,并在年中实现了算法完全移植。这样,Nutch的NDFS和MapReduce实现不只是适用于搜索领域。2006年2月,开发人员将NDFS和MapReduce移出了Nutch形成了Lucene的一个子项目,称为Hadoop。与此同时,创始人Doung加入了yahoo,yahoo将Hadoop发展成一个能够处理Web数据的系统。2008年2月,Yahoo!宣布其搜索引擎使用的索引是在一个拥有1万个内核的Hadoop集群上构建的。2008年1月,Hadoop称为Apache的顶级项目。至今,除了Yahoo!外,还有Facebook等其他公司使用Hadoop架构。2

5、008年4月,Hadoop打破世界纪录,成为最快的TB级别排序系统。通过一个910个节点的集群,Hadoop在209秒内完成对1TB的数据的排序。2008年11月,Google的报告中声称,它的MapReduce对1TB排序只用了68秒。2009年5月,Yahoo!的团队排序用了62秒。什么是hadoop?它能干什么?诞生背景:谷歌面对的数据和计算难题1.大量的网页怎么存储?2.搜索算法什么是hadoop?Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。H

6、adoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有高容错性的特点,并且设计用来部署在低廉的(low-cost)硬件上;而且它提供高吞吐量(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX的要求,可以以流的形式访问(streamingaccess)文件系统中的数据。Hadoop的框架最核心的设计就是:HDFS和MapReduce。HDFS为海量的数据提供了存储,则MapReduce为海量的数据提供了

7、计算。Hadoop体系结构HDFS(HadoopDistributedFileSystem)和Mapreduce是hadoop的两大核心HDFS(文件系统)实现分布式存储的底层支持Mapreduce(编程模型)实现分布式并行任务处理的程序支持Hadoop子项目家族HadoopHDFSHDFS:采用Master/Slave结构模型MasterNameNodeJobTrackerDataNodeTaskTrackerDataNodeTaskTrackerDataNodeTaskTrackerDataNodeTaskTrackerSecondaryNameNodeHD

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。