欢迎来到天天文库
浏览记录
ID:20485412
大小:199.00 KB
页数:3页
时间:2018-10-13
《storm基本体系架构》由会员上传分享,免费在线阅读,更多相关内容在学术论文-天天文库。
1、ApacheStorm是由Twitter开源的分布式实时计算系统。Storm可以非常容易并且可靠的处理无限的数据流。对比Hadoop的批处理,Storm是一个实时的、分布式的、具备高容错的计算系统。Storm应用可以使用不同的编程语言来进行开发。-Storm基木体系结构图-Nimbus和Supervisor之间的通信依靠Zookeeper來完成,并J1Nimbus进程和Supervisor都是快述失败和无状态的。所有的状态要么在Zookeeper里面,要么在本地磁盘上。这就意味着你可以用Kill-9來杀死Nimbus和S叩ervisor进程,然后在重启它们,它们可以继续工作,就像什么也没发生。
2、这个设计使Storm具有非常高的稳定性。核心概念在Storm中有一些核心基本概念,拈Topology、Nimbus、Supervisor、Worker、Executor、Task、Spout、Bolt、Tuple、Stream、Stream分组(grouping)等。Topology:一个实时计算成用程序還輯上被封装在Topology对象中,矣似Hadoop巾的作业。与作业不同的是,Topology会一直运行直到显式地汆死它。Nimbus:负责资源分配和任务调度,类似Hadoop巾的JobTracker。Supervisor:负责接受Nimbus分配的任务,启动和停止属于自匕管理的Worker
3、进程,类似Hadoop中的TaskTracker。Worker:运行具体处理组件逻辑的进程。Executor:Storm0.8之后,Executor为Worker进程中的具体的物理线程,同一个Spout/Bolt的Task川‘能会共享一个物理线程,一个Executor中只能运行隶属于同一个Spout/Bolt的Task。Task:每一个Spout/Bolt具体要做的工作,也是各个节点之间进行分组的羊位。Spout:在Topology屮产生源数据流的组件。通常Spout获取数据源的数据,然后调用nextTuple函数,发射数据供Bolt消费。Bolt:在Topology中接受Spout的数据然£
4、;•执行处理的组件,Bolt卩1以执行过滤,函数操作,合并,写数据库等任何操作。Bolt在接收到消息后会调川execute函数,川户可在其屮执行自己想耍的操作。Tuple:消息传递的单元。Stream:源源不断传递的Tuple组成了Stream。Stream分组:即消息的分区(partition)方法。Storm屮提供若干种实用的分组方式。也括Shuffle、BoItT:作示意阳
此文档下载收益归作者所有