intel distribution for apache hadoop 软件:优化与调试指南

intel distribution for apache hadoop 软件:优化与调试指南

ID:34457815

大小:2.47 MB

页数:7页

时间:2019-03-06

intel distribution for apache hadoop 软件:优化与调试指南_第1页
intel distribution for apache hadoop 软件:优化与调试指南_第2页
intel distribution for apache hadoop 软件:优化与调试指南_第3页
intel distribution for apache hadoop 软件:优化与调试指南_第4页
intel distribution for apache hadoop 软件:优化与调试指南_第5页
资源描述:

《intel distribution for apache hadoop 软件:优化与调试指南》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、优化与调试指南Intel®DistributionforApacheHadoop®软件Intel®DistributionforApacheHadoop®软件:优化与调试指南通过配置、管理您的Hadoop*环境来实现高性能低成本目录要点综述介绍要点综述.................................................1数据每天都在以惊人速度增长。为了描述数据正以惊人的速度在全球范围内呈爆炸这些庞大且复杂的数据集,“大数据”这性增长,预计到2015年数据量将达到8ZB介绍................

2、.........................................11一术语应运而生。传统数据库管理工具已(泽字节)。“大数据”的特征在于与Intel®Distributionfor经无法胜任对于大数据的处理和管理。幸以往相比,数据集更大、结构和格式更多ApacheHadoop®软件的组件.............2好现在有新的工具可以使用,比如说专门样,同时生成速度更快。大数据分析给IT资源推荐.................................................3设计出去用于轻松应对这

3、一挑战的Hadoop*带来了新的挑战,但同时也给企业带来了优化与调试Hadoop系统....................4框架。绝佳的机会,可帮助支持获得有关客户、配置和优化软件层................................5合作伙伴和业务的更丰富的洞察与信息。本文提供Intel®DistributionforApache配置和优化硬件层................................6Hadoop®(IntelDistribution)软件的优化Hadoop平台设计用于解决大数据和复杂基准指

4、标评测.........................................6与调试指南,这一大数据系统面向在基于数据挑战,例如非结构化数据和结构化数英特尔处理器的架构之上运行而优化。据的混合类型。尽管Hadoop框架在处理结论..........................................................7该指南的内容是基于在英特尔和客户站与管理大数据集方面性能卓越,但有很多点进行的基准测试。首先介绍大数据和变量需要调优以便为特定Hadoop环境交IntelDistribution软

5、件,然后从组件层分解付最佳性能。Hadoop系统。该指南提供了软硬件配置有些Hadoop工作负载是CPU密集型的,技巧,并配有调试最佳实践,旨在根据工如分析型任务,而有些工作负载是I/O密作负载类型从IntelDistribution系统获得集型的,如抽取、转化、和加载(ETL)最佳性能。任务。Hadoop平台内的配置与调试,对于配置和管理Hadoop环境涉及众多参与者。硬件和软件而言,应当取决于将要执行的在该指南中,我们明确了贵IT机构内不同工作负载类型。这一优化指南旨在提供最人员最感兴趣的章节。佳实践,以获得一个良好平衡的Had

6、oopIntel®DistributionforApacheHadoop®系统。其所进行的性能测试是基于使用Intel®DistributionforApache用都有参数可供设置以提供最佳性能。第两个HiBench基准工作负载,TeraSort和Hadoop®软件的组件二层是实际Hadoop框架,包括两个主要WordCount,它们均由英特尔开发,目前Hadoop系统包含众多组件,后者分层集组件:MapReduce和Hadoop分布式文件已作为开源软件提供。成。Hadoop系统的性能取决于每一层的系统(HDFS*)。设置可以在配置

7、文件夹最佳调试。由于每一层的众多独立部件都中的XML文件中根据需求进行修改。HiBench是一套综合Hadoop基准指标套有很多变量,因此Hadoop系统的调试和件,由英特尔开发,目前已作为开源软件第三层是软件层,包括Java*虚拟机(JVM)优化具有挑战性并且需要花费一些时间。提供。关于如何使用该套件中的其它10个以及C和C++脚本,可以进行相应的参数另外,由于每一层都由不同的IT团队控工作负载的指南可参阅下文。设置。第四层是操作系统,第五层是硬件制,包括开发人员和基础设施团队,因此资源。硬件选择,例如CPU,内存,网卡调试工作的

8、协调十分重要。(NIC)类型,硬盘的数量与类型,都会按照从上至下的顺序,第一个调试层是应显著影响Hadoop系统的性能。用层。为Hadoop框架开发的任何用户应⩕ᝤჇͶ⮱Hadoop*Ꮑ⩕MapReduceHDFS*㈨㐌C/C++㙇᱙

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。