kafka剖析(一)kafka背景及架构介绍

kafka剖析(一)kafka背景及架构介绍

ID:22583286

大小:653.84 KB

页数:14页

时间:2018-10-30

kafka剖析(一)kafka背景及架构介绍_第1页
kafka剖析(一)kafka背景及架构介绍_第2页
kafka剖析(一)kafka背景及架构介绍_第3页
kafka剖析(一)kafka背景及架构介绍_第4页
kafka剖析(一)kafka背景及架构介绍_第5页
资源描述:

《kafka剖析(一)kafka背景及架构介绍》由会员上传分享,免费在线阅读,更多相关内容在工程资料-天天文库

1、Kafka剖析(一):Kafka背景及架构介绍Kafka是由Linkedln开发的一个分布式的消息系统,使用Scala编写,它以可水平扩展和高吞吐率而被广泛使用。门前越来越多的开源分布式处理系统如Cloudera、ApacheStorm、Spark都支持与Kafka集成。InfoQ—直在紧密关注Kafka的应川以及发展,“Kafka剖析”专栏将会从架构设计、实现、应用场景、性能等方面深度解析Kafka。背景介绍Kafka创建背景Kafka是一个消,包系统,原木开发白Linkedln,用作Linkedln的洒动流(Acti

2、vityStream)和运背数裾处理管道(Pipeline)的某础。现在它已被多家不同类型的公司作为多种类型的数据管道和消息系统使用。活动流数裾是几乎所有站点在对站使用情况做报表时都要用到的数裾屮最常规的部分。活动数据包括页面访14量(PageView)、被杏看内界方血的信息以及搜索情况等内界。这种数椐通常的处理方式是先把各种活动以U志的形式写入某种文件,然盾周期性地对这些文件进行统计分析。运营数据指的是服务器的性能数据(CPU、10使用率、请求时间、服务LI志等等数拋)。运营数拋的统计方法种类繁多。近年来,活动和运营数

3、裾处理己经成为了网站软件产品特性巾一个至关熏要的组成部分,这就需耍一袞稍微更加复杂的基础设施对其提供支持。Kafka简介Kafka是一种分布式的,基于发布/订阅的消息系统。主要设计目称如下:•以时间复杂度为0(1)的方式提供消息持久化能力,即使对TB级以上数裾也能保证常数吋間复杂度的访问性能。•高吞吐率。即使在非常廉价的商用机器上也能做到单机支持每秒100K条以上消息的传输。•文持KafkaServerI'uj的消息分区,及分布式消费,同时保证每个Partition內的消息顺序传输。•M时支持离线数据处理和实时数据处理。

4、•Scaleout:支持在线水平扩展。为何使用消息系统•解耦在项n启动之初來预测将來项n会碰到什么耑求,是极其w难的。消息系统在处理过程屮M插入了一个隐含的、基于数裾的接u层,两边的处理过程都要实现这一接u。这允许你独立的扩展或修改两边的处理过程,只要确保它们遵守同样的接口约束。•冗余有些情况下,处理数据的过程会失败。除非数据被持久化,否则将造成丢失。消息队列把数据进行持久化直到它们己经被完全处理,通过这-方式规避了数据£失风险。许多消息队列所采用的”插入-获取•删除"范式中,在把一个消息从队列中删除之前,需耍你的处理系

5、统明确的指出该消息已经被处理完毕,从而确保你的数裾被安全的保存直到你使川完毕。•扩展性因为消息队列解耦Y你的处理过稈,所以增人消息入队和处理的频率足很界易的,只要另外增加处理过程即可。不需耍改变代码、不需要调甘参数。扩展就像调大电力按钮-样简单。•灵活性&峰值处理能力在访问量剧增的怙况下,应用仍然需耍继续发挥作用,但是这样的突发流量并不常见;如果为以能处理这类峰位访问为标准来投入资源随时待命无疑是巨人的浪费。使用消息队列能够使关键组件顶住突发的访问压力,而不会因为突发的超负份的请求而完全崩溃。•可恢复性系统的•一部分组件

6、失效时,不会影响到整个系统。消息队列降低了进程叫的耦合度,所以即使一个处理消息的进程挂掉,加入队列中的消息仍然可以在系统恢复后被处理。•顺序保证在大多使用场景下,数据处理的顺序都很重耍。大部分消息队列本来就是排序的,并且能保证数据会按照特定的顺序来处理。Kafka保证一个Partition闪的消息的柯序性。•缓冲在任何重要的系统屮,都会有需要不同的处理吋间的元素。例如,加载一张图片比应川过滤器花赀更少的吋间。消息队列通过一个缓冲e来帮助任务最高效率的执行写入队列的处理会尽可能的快速。该缓冲行助于控制和优化数据流经过系统的

7、速度。•异步通信很多时候,用户不想也不需耍立即处理消息。消息队列提供了异步处理机制,允许用户把一个消息放入队列,但并不立即处理它。想m队列屮放入多少消息就放多少,然后在需要的吋候再去处理它们。常用MessageQueue对比•RabbitMQRabbitMQ是使用Erlang编写的一个开源的消息队列,木身支持很多的协议:AMQP,XMPP,SMTP,STOMP,也正因如此,它非常重S级,更适合于企业级的开发。同时实现了Broker构架,这意味着消息4:发送给客户端时先奋:中心队列排队。对路由,负载均衡或者数裾持久化都有很

8、好的支持。•RedisRedis是一个基于Key-Value对的NoSQL数据库,开发维护很活跃。虽然它是一个Key-Value数据库存储系统,但它本身支持MQ功能,所以完全对以当做一个轻fi级的队列服务来使用。对于RabbitMQ和Redis的入队和出队楝作,各执行100万次,每10万次记录一次执行时间。测试数据分

当前文档最多预览五页,下载文档查看全文

此文档下载收益归作者所有

当前文档最多预览五页,下载文档查看全文
温馨提示:
1. 部分包含数学公式或PPT动画的文件,查看预览时可能会显示错乱或异常,文件下载后无此问题,请放心下载。
2. 本文档由用户上传,版权归属用户,天天文库负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容,确认文档内容符合您的需求后进行下载,若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误,付费完成后未能成功下载的用户请联系客服处理。