hadoop权威指南前三章中文

hadoop权威指南前三章中文

ID:34438396

大小:972.68 KB

页数:77页

时间:2019-03-06

hadoop权威指南前三章中文_第1页
hadoop权威指南前三章中文_第2页
hadoop权威指南前三章中文_第3页
hadoop权威指南前三章中文_第4页
hadoop权威指南前三章中文_第5页
资源描述:

《hadoop权威指南前三章中文》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、目录目录I初识Hadoop11.1数据!数据11.2数据的存储和分析31.3相较于其他系统41.4Hadoop发展简史91.5ApacheHadoop项目12MapReduce简介152.1一个气象数据集152.2使用UnixTools来分析数据172.3使用Hadoop进行数据分析192.4分布化302.5Hadoop流352.6Hadoop管道40Hadoop分布式文件系统443.1HDFS的设计443.2HDFS的概念453.3命令行接口483.4Hadoop文件系统503.5Java接口543.6数据流683.7通过distcp进行并行复制753.8Hadoop归档文件

2、77Hadoop的I/O804.1数据完整性804.2压缩834.3序列化924.4基于文件的数据结构111MapReduce应用开发1255.1API的配置1265.2配置开发环境1285.3编写单元测试1345.4本地运行测试数据1385.5在集群上运行1445.6作业调优1595.7MapReduce的工作流162MapReduce的工作原理1666.1运行MapReduce作业1666.2失败1726.3作业的调度1746.4shuffle和排序1756.6任务的执行181MapReduce的类型与格式1887.1MapReduce类型1887.3输出格式217MapR

3、educe特性2278.1计数器2278.2排序2358.3联接2528.4次要数据的分布2588.5MapReduce的类库263Hadoop集群的安装2649.1集群说明2649.2集群的建立和安装2689.3SSH配置2709.4Hadoop配置2719.5安装之后2869.6Hadoop集群基准测试2869.7云计算中的Hadoop290Hadoop的管理29310.1HDFS29310.2监控30610.3维护313Pig简介32111.1安装和运行Pig32211.2实例32511.3与数据库比较32911.4PigLatin33011.5用户定义函数34311.6

4、数据处理操作符35311.7Pig实践提示与技巧363Hbase简介36612.1HBase基础36612.2概念36712.3安装37112.4客户端37412.5示例37712.6HBase与RDBMS的比较38512.7实践390ZooKeeper简介39413.1ZooKeeper的安装和运行39513.2范例39613.3ZooKeeper服务40513.4使用ZooKeeper建立应用程序41713.5工业界中的ZooKeeper428案例研究43114.1Hadoop在Last.fm的应用43114.2Hadoop和Hive在Facebook的应用44114.3H

5、adoop在Nutch搜索引擎45114.4Hadoop用于Rackspace的日志处理46614.5Cascading项目47414.6ApacheHadoop的1TB排序488ApacheHadoop的安装491Cloudera的Hadoop分发包497预备NCDC气象资料502第1章初识Hadoop古时候,人们用牛来拉重物,当一头牛拉不动一根圆木的时候,他们不曾想过培育个头更大的牛。同样,我们也不需要尝试更大的计算机,而是应该开发更多的计算系统。--格蕾斯·霍珀1.1数据!数据我们生活在数据时代!很难估计全球存储的电子数据总量是多少,但是据IDC估计2006年"数字全球"

6、项目(digitaluniverse)的数据总量为0.18ZB,并且预测到2011年这个数字将达到1.8ZB,为2006年的10。1ZB相当于10的21次方字节的数据,或者相当于1000EB,1000000PB,或者大家更熟悉的10亿TB的数据!这相当于世界上每个人一个磁盘驱动器的数量级。这一数据洪流有许多来源。考虑下文:纽约证券交易所每天产生1TB的交易数据。著名社交网站Facebook的主机存储着约100亿张照片,占据PB级存储空间。Ancestry.com,一个家谱网站,存储着2.5PB数据。互联网档案馆(TheInternetArchive)存储着约2PB数据,并以每月

7、至少20TB的速度增长。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。此外还有大量数据。但是你可能会想它对自己有何影响。大部分数据被锁定在最大的网页内容里面(如搜索引擎)或者是金融和科学机构,对不对?是不是所谓的"大数据"的出现会影响到较小的组织或个人?我认为是这样的。以照片为例,我妻子的祖父是一个狂热的摄影爱好者,并且他成人之后,几乎一直都在拍照片。他的所有照片(中等格式、幻灯片和35mm胶片),在扫描成高解析度照片时,占了大约10GB的空间。相比之下,我家去年一年用数码相机拍摄

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。