欢迎来到天天文库
浏览记录
ID:36199928
大小:1.62 MB
页数:11页
时间:2019-05-07
《hadoop培训视频教程》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库。
1、Hadoop大数据解决方案进阶应用Hadoop讲师:迪伦(北风网版权所有)MapReduce高阶实现(4)HadoopStream中的key和value控制分片的大小避免分片把整个文件当作一条记录处理课程目标HadoopStream中的key和valueStream应用可以决定分隔符,该分隔符用于通过标准输入把key/value对转换成一串比特值发送到map或reduce函数默认是Tab(制表符)通过-D指定具体属性分隔符作用的位置:HadoopStream中的key和valueStream分隔符属性控制分片的大小通过FileInputFormat类进
2、行输入数据的分片FileInputFormat只分割大文件,即超过HDFS块大小的文件控制分片大小的属性可以强制设置分片比文件块大或者比块小分片大小的计算公式Math.max(minSize,Math.min(goalSize,blockSize));其中goalSize为“InputFile大小”/“我们在配置文件中定义的mapred.map.tasks”值控制分片的大小参数设置如何影响分片大小避免分片有些应用程序可能不希望文件被切分,而是用一个mapper完整处理每一个输入文件两种方法增加分片大小,将它设置为最大值long.MAX_VALUE即可使用FileInputFormat
3、具体子类,重载isSplitable()方法把返回值位置为false。把整个文件当作一条记录处理有些应用程序需要访问一个文件中的全部内容。即使不分割文件,仍然需要一个RecordReader来读取文件内容作为record的值具体实现:把整个文件当作一条记录处理把整个文件当作一条记录处理欢迎访问我们的官方网站www.ibeifeng.com
此文档下载收益归作者所有