《Storm框架分享》PPT课件

《Storm框架分享》PPT课件

ID:38603590

大小:1.72 MB

页数:18页

时间:2019-06-16

《Storm框架分享》PPT课件_第1页
《Storm框架分享》PPT课件_第2页
《Storm框架分享》PPT课件_第3页
《Storm框架分享》PPT课件_第4页
《Storm框架分享》PPT课件_第5页
资源描述:

《《Storm框架分享》PPT课件》由会员上传分享,免费在线阅读,更多相关内容在教育资源-天天文库

1、Storm框架分享luoyongjian2021/8/14目录6、拓扑结构7、消息确认机制4、集群角色1、Storm是什么3、基本概念2、Storm与Hadoop区别5、Storm中进程和线程关系8、线上任务9、Q&AStorm是什么1Storm是一个分布式实时计算系统,最早是由Twitter开发,2011年开始在GitHub上开源和托管,目前已经走过了3个年头。现在已经是Apache生态系统中的一员,逐渐成为业内实时处理框架的标准。特点简单编程:提供基本原语,如tuple,spout,bolt等多语言支持:提供多语言支持,

2、可以用java开发框架,用其他语言开发逻辑水平扩展:同Hadoop一样,支持集群的水平扩容容错性强:如果在消息处理过程中出现异常,Storm会重新处理这个出问题的处理单元可靠消息保证:ack消息机制,保证每个tuple至少完整处理一次快速消息处理:消息缓存队列,保证消息能够被及时处理本地调试模式:使调试更加的方便Storm与Hadoop区别2一个是实时的分布式处理框架,一个是批处理的分布式处理框架数据来源:HADOOP是HDFS上某个文件夹下的可能是成TB的数据,STORM是实时新增的某一笔数据区别处理过程:HADOOP是分

3、MAP阶段到REDUCE阶段,STORM是由用户定义处理流程,流程中可以包含多个步骤,每个步骤可以是数据源(SPOUT)或处理逻辑(BOLT)是否结束:HADOOP最后是要结束的,STORM是没有结束状态,到最后一步时,就停在那,直到有新数据进入时再从头开始处理速度:HADOOP是以处理HDFS上大量数据为目的,速度慢,STORM是只要处理新增的某一笔数据即可可以做到很快适用场景:HADOOP是在要处理一批数据时用的,不讲究时效性,要处理就提交一个JOB,STORM是要处理某一新增数据时用的,要讲时效性消息队列:HADOOP

4、没有消息队列,STORM将消息队列作为消息源与输入源之间的缓冲基本概念3Topology:storm中运行的一个实时应用程序,因为各个组件间的消息流动形成逻辑上的一个拓扑结构Spout:在一个topology中产生源数据流的组件。通常情况下spout会从外部数据源中读取数据,然后转换为topology内部的源数据。Spout是一个主动的角色,其接口中有个nextTuple()函数,storm框架会不停地调用此函数,用户只要在其中生成源数据即可Bolt:在一个topology中接受数据然后执行处理的组件。Bolt可以执行过滤、

5、函数操作、合并、写数据库等任何操作。Bolt是一个被动的角色,其接口中有个execute(Tupleinput)函数,在接受到消息后会调用此函数,用户可以在其中执行自己想要的操作Tuple:一次消息传递的基本单元。本来应该是一个key-value的map,但是由于各个组件间传递的tuple的字段名称已经事先定义好,所以tuple中只要按序填入各个value就行了,所以就是一个valuelistStream:源源不断传递的tuple就组成了streamStorm集群角色4集群角色Nimbus:负责资源分配和任务调度。Super

6、visor:负责接受nimbus分配的任务,启动和停止属于自己管理的worker进程。Worker:运行具体处理组件逻辑的进程。Task:worker中每一个spout/bolt的线程称为一个task.在storm0.8之后,task不再与物理线程对应,同一个spout/bolt的task可能会共享一个物理线程,该线程称为executor。Storm集群角色4Storm中进程和线程关系5Worker:被Supervisor守护进程创建的用来干活的进程。每个Worker对应于一个给定topology的全部执行任务的一个子集。反

7、过来说,一个Worker里面不会运行属于不同的topology的执行任务Executor:可以理解成一个Worker进程中的工作线程。一个Executor中只能运行隶属于同一个component(spout/bolt)的task。一个Worker进程中可以有一个或多个Executor线程。在默认情况下,一个Executor运行一个taskTask:是spout和bolt中具体要干的活了。一个Executor可以负责1个或多个task。每个component(spout/bolt)的并发度就是这个component对应的tas

8、k数量。同时,task也是各个节点之间进行grouping(partition)的单位Storm中进程和线程关系5拓扑结构6拓扑结构6几种topology形式消息确认机制7消息容错原理storm允许用户在spout中发射一个新的源tuple时为其指定一个messageid,这个messag

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。