mapreduce实例

mapreduce实例

ID:26181503

大小:218.00 KB

页数:4页

时间:2018-11-25

mapreduce实例_第1页
mapreduce实例_第2页
mapreduce实例_第3页
mapreduce实例_第4页
资源描述:

《mapreduce实例》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、文章内容来自Java私塾2013-12-27(Java私塾)MapReduce实例第一部分: 什么是 MapReduce             HadoopMap/Reduce是一个使用简易的软件框架,基于它写出来的应用程序能够运行在由上千个商用机器组成的大型集群上,并以一种可靠容错的方式并行处理上T级别的数据集。             MapReduce基础出发点是很易懂。它由称为map和reduce的两部分用户程序组成,然后利用框架在计算机集群上面根据需求运行多个程序实例来处理各个子任务

2、,然后再对结果进行归并。 第二部分: MapReduce 架构设计MapReduce执行流程更多内容在‘java私塾官网’文章内容来自Java私塾2013-12-27  作业提交流程更多内容在‘java私塾官网’文章内容来自Java私塾2013-12-27  术语:•job:用户的每一个计算请求,就称为一个作业。•JobTracker:用户提交作业的服务器,同时,它还负责各个作业任务的分配,管理所有的任务服务器。•TaskTracker:任劳任怨的工蜂,负责执行具体的任务。•Task:每一个作业

3、,都需要拆分开了,交由多个服务器来完成,拆分出来的执行单位,就称为任务。第三部分:配置开发环境•Tool,ToolRunner介绍•配置文件管理•Eclipse开发环境搭建 •用Tool来实现打印所有配置的所有属性•介绍ToolRunner•配置文件管理–可以在运行Job时用–conf参数来指定要使用的配置文件,这样可以合理管理测试,生产环境所需的配置文件–示例•Hadoop-local.xml•hadoop-localhost.xml更多内容在‘java私塾官网’文章内容来自Java私塾201

4、3-12-27–Hadoopfs–conf 文件名查看相应的配置•Eclipse开发环境搭建–在Resources文件夹中加入mapred-site.xml即可–导入Hadooplib下所有的Jar包第四部分:应用例子:词频统计        如果想统计下过去 50 年毕业生毕业论文出现最多的几个单词,看看大家都在研 究些什么,那收集好论文后,该怎么办呢?方法一:我可以写一个小程序,把所有论文按顺序遍历一遍,统计每一个遇到的单 词的出现次数,最后就可以知道哪几个单词最热门了。这种方法在数据集比较

5、小时,是非常有效的,而且实现最简单,用来解决这个问题 很合适。方法二:写一个多线程程序,并发遍历论文。方法二肯定比方法一高效。但是写一个多线程程序要比方法一困难多了,我们必须 自己同步共享数据,比如要防止两个线程重复统计文件。方法三:把作业交给多个计算机去完成。我们可以使用方法一的程序,部署到 N 台机器上去,然后把论文集分成 N 份,一台 机器跑一个作业。这个方法跑得足够快,但是部署起来很麻烦,我们要人工把程序 copy 到别的机器,要人工把论文集分开,最痛苦的是还要把 N 个运行结果进行整合

6、 (当然我们也可以再写一个程序)。方法四:让 MapReduce 来帮帮我们吧!      MapReduce 本质上就是方法三,但是如何拆分文件集,如何 copy 程序,如何整 合结果这些都是框架定义好的。我们只要定义好这个任务(用户程序),其它都交 给 MapReduce 。map 函数和 reduce 函数 map 函数和 reduce 函数是交给用户实现的,这两个函数定义了任务本身。map 函数:接受一个键值对( key-valuepair ),产生一组中间键值对。 MapReduce 

7、框架会将 map 函数产生的中间键值对里键相同的值传递给一个 reduce 函数。reduce 函数:接受一个键,以及相关的一组值,将这组值进行合并产生一组规模 更小的值(通常只有一个或零个值)。 私塾在线学习网原创内容更多内容在‘java私塾官网’

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。