集群硬件配置规范

集群硬件配置规范

ID:34324016

大小:63.43 KB

页数:5页

时间:2019-03-05

集群硬件配置规范_第1页
集群硬件配置规范_第2页
集群硬件配置规范_第3页
集群硬件配置规范_第4页
集群硬件配置规范_第5页
资源描述:

《集群硬件配置规范》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、集群硬件配置规范利用淘汰过时的主机,做更大的事情。这里的主机是指商业主机,并非个人主机。Hadoop的管理员考虑到各种因素。Hadoop是在完整的行业标准的硕件上运行,建议一个理想的集群配置是不一样只是提供了硬件规格列表容易。选择硬件提供了一个给定的工作负载的性能和经济的最佳平衡,需要测试和验证。例如,用八10密集型工作负载将投资在些每核心主轴。在这里将讨论的工作量评价和它在硬件的选择起着至关重耍的作用。存储和计算的融合IT组织有标准化的刀片服务器和SAN(存储区域网络),以满足他们的网格和处理密集型工作负载。虽然这种模式使一些标准的应用,如Web服务器,应用服务器,规模较小的结构化数据库

2、和简单的ETL(提取,转换,装载)基础设施的要求有很大的意义己经发生变化的数据量和数量用户己经成长。Web服务器现在前端使用缓存层,数据库使用大规模并行与本地磁盘,ETL作业止在推动更多的数据比他们可以在本地处理。硬件厂商建立创新体系,以满足这些耍求包括存储刀片,SAS(串行连接SCSI)开关,外部SATA阵列和更大容量的机架单元。Hadoop的目的是基于一种新的方法来存储和处理复杂的数据。海量存储和可靠性进行处理然后移动到刀片服务器的集合,而不是依靠在SAN上,Hadoop的处理大数据量和可靠性,在软件层。Hadoop的数据分布到集群上,处理平衡,并使用复制,以确保数据的可靠性和容错。因

3、为数据的分布式计算能力的机器上,处理可以直接发送到存储数据的机器。由于每个机器在一个Hadoop集群的存储和处理数据,他们需要进行配置,以满足数据存储和处理要求。任务压力问题MapReduce作业,在儿乎所有情况下,将遇到一个瓶颈,从磁盘或从网络(作为IO密集型的工作),或在处理数据读取的数据(CPU密集型工作)。10密集型工作的一个例子是排序,这就需要非常小的加工(简单的比较)和犬量的读取和写入磁盘。一个CPU密集型的工作的一个例子是分类,其中一些输入数据处理非常复杂的方式来确定一个本体。□曲IO密集型工作负载Hadoop涉及到的I/O操作,主要包括下列几项:索引(Indexing)群化

4、(Grouping)数据导入和导出(Dataimportingandexporting)数据移动和转换(Datamovementandtransformation)圍曲CPU密集型工作负载Hadoop中,作业的执行,需要CPU的持续运作。下面列举了儿个方面■■集群处理(Clustering/Classification)复朵的文本挖掘Complextextmining自然语言的处理(Natural-languageprocessing)特殊功能的提取(Featureextraction)根据客八需要完全理解集群的工作负载,才能选择最优的Hadoop硬件,而这好像是一个鸡牛蛋蛋牛鸡的问题。大

5、多数工作组在没有彻底剖析他们的工作负载时,就己经搭建好了Hadoop集群,通常Hadoop运行的作负载随着他们的精通程度的提高而完全不同。而且,某些工作负载可能会被一些未预料的原因受限。例如,某些理论上是IO受限的工作负载却最终成为了CPU受限,这是可能是因为用八选择了不同的压缩算法,或者算法的不同实现改变TMapReduce任务的约束方式。基丁•这些原因,当工作组述不熟悉耍运行任务的类型时,深入剖析它才是构建平衡的Hadoop集群之前需要做的最合理的工作接下来需耍在集群上运行MapReduce皐准测试任务,分析它们是如何受限的o完成这个目标最直接的方法是在运行屮的工作负载屮的适当位置添加

6、监视器来检测瓶颈。我们推荐在Hadoop集群上安装ClouderaManager,它可以提供CPU,侦盘和网络负载的实时统计信息。(ClouderaManager是Cloudera标准版和企业版的一个组件,其中企业版还支持滚动升级)ClouderaManager女装Z后,Hadoop管理员就可以运行MapReduce任务并且查看ClouderaManager的仪表盘,用来监测每台机器的工作情况。在为工作负载构建合适的集群之外,还建议客户和硬件提供商合作确定电力和冷却方面的预算。山于Hadoop会运行在数十台,数冇台到数千台节点上。通过使用高性能功耗比的硬件,作业组可以节省一大笔资金。硬件提

7、供商通常都会提供监测功耗和冷却方面的工具和建议。耍怎么选择硬件配置呢?选择机器配置类型的第一步就是了解运维团队已经在管理的硬件类型。在购买新的侦件设备时,运维团队经常根据一定的观点或者强制需求来选择,并且倾向于工作在自己业已熟悉的平台类型上。Hadoop不是唯一的从规模效率上获益的系统。再一次强调,作为更通用的建议,如果集群是新建立的或者并不能准确的预估极限工作负载,建议选择均衡的硬件类型。Hadoop集群有四种基木任务

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。