您当前的位置:首页 > 电脑百科 > 程序开发 > 架构

Kafka:介绍和内部工作原理

时间:2023-09-27 14:04:42  来源:微信公众号  作者:小技术君

Kafka:介绍和内部工作原理

展示Kafka工作方式的简单架构

什么是Kafka?为什么我们要使用它?它是消息队列吗?

它是一个 分布式流处理平台或分布式 提交日志。

Kafka通常用于实时流数据管道,即在系统之间传输数据,构建不断流动的数据转换系统和构建事件驱动的系统。

它确实可以充当消息队列,但不仅限于此。它可以充当FIFO队列、发布/订阅消息系统、实时流处理平台。由于Kafka的持久性存储能力,甚至可以用作数据库。

那么从上面的定义中,什么是分布式流处理和提交日志?

Kafka作为一个由一个或多个节点组成的集群工作,这些节点可以位于不同的数据中心,我们可以将数据/负载分布到Kafka集群中的不同节点,它具有固有的可扩展性、可用性和容错性。

Kafka将数据存储为一系列连续的记录,可以以不同的方法进行处理。

当您将数据推送到Kafka时,它会将它们附加到记录流中,就像将日志附加到日志文件中一样。

让我们开始...

为了理解这一点,让我们深入研究关键主题:

1.消息

  • 消息是Kafka的原子数据单位。
  • 您可以推送字符串、整数、不同架构的JSON以及其他任何内容,但通常将不同类型的消息推送到不同的主题中。
  • 可以使用一个键(Key),它只是一些元数据,用于确定目标分区。

2.主题

我们可以将主题视为Kafka中的消息的逻辑类别,它们是相同类型数据的流。

3.分区

Kafka:介绍和内部工作原理

Image.jpeg

  • 这基本上是分片技术,是Kafka的扩展能力背后的概念。
  • 分区是使消息能够并行分布在集群中的多个代理上的机制。使用这种并行性方法,Kafka可以同时支持多个消费者和生产者的线性扩展。这种分区方法允许消费者和生产者的线性扩展。
  • 当我们将主题的数据拆分为多个流时,我们称所有这些较小的流为该主题的“分区”。
  • 系统的性能还取决于设置分区的方式。
  • 消息的偏移量是该消息的数组索引。图中块上的数字表示偏移量,第一个块位于第0个偏移量处,最后一个块位于(n-1)个偏移量处。

4.生产者

(1) 将消息发布到Kafka主题的Kafka客户端。

生产者用于决定将消息发送到哪个分区。根据不同的配置和参数,生产者决定目标分区。

让我们检查不同的情况:

  • 未指定键:生产者将随机决定分区,并尝试平衡所有分区上的消息总数。
  • 指定键:生产者使用一致性哈希[1]将键映射到分区。一致性哈希是一种哈希机制,在相同的键上始终生成相同的哈希值,它最小化了重新哈希情况下键的重新分布。
  • 指定分区:您也可以硬编码目标分区。
  • 自定义分区逻辑:我们可以根据分区可以决定的一些规则编写规则。

(2) 您可以以3种方式将消息发送到Kafka。

  • 发送并忘记 — 我们发送消息到Kafka代理并忘记它。由于Kafka是高可用的,成功的机会很大。
  • 同步发送 — 您希望等待所有感兴趣的消费者完成您希望它们完成的任何操作
  • 异步发送 — 您不希望等待所有感兴趣的消费者完成您希望它们完成的任何操作

我们还可以在将消息发送到代理之前在生产者上配置特性。

为了获得更好的性能,我们可以使用Avro序列化/反序列化器。

5.消费者

消费者以有序的方式从分区中读取消息。

每次消费者读取一条消息时,它都会将偏移值存储到Kafka或Zookeeper上,表示它是消费者读取的最后一条消息。

因此,如果消费者节点崩溃,它可以恢复到上次读取的位置。此外,如果在任何时候消费者需要回到过去并读取旧消息,它只需重置偏移位置即可。

(1) 轮询循环:

您可以配置分区分配策略。

  • 范围:消费者获取连续的分区
  • 轮询:轮询分配器列出了所有可用的分区和所有可用的

尝试在重新平衡时最小化影响,保持大部分分配不变,但允许协作重新平衡批处理大小。我们可以配置每次轮询调用返回多少条记录和多少数据。

(2) 提交偏移量:

在读取消息时,我们可以更新消费者的偏移位置,这称为提交偏移量。可以启用自动提交,或者应用程序可以显式地提交偏移量。这可以同步和异步两种方式完成。

6.消费者组

一组消费者一起工作,从一个主题中读取消息。

1扇出交换: 可以由多个消费者组订阅单个主题。

一个实时示例是OTP发送服务,可以在号码上发送OTP,也可以发送到电子邮件。

Kafka:介绍和内部工作原理

Otp示例

1.订单保证: 一个分区不能由同一个消费者组中的多个消费者读取。这由消费者组启用,只有消费者组中的一个消费者可以从单个分区读取。

Kafka:介绍和内部工作原理

在这里,生产者生成6条消息。每条消息都是键值对,假设键“A”的值为“1”,“C”的值为“1”,“B”的值为“1”,“C”的值为“2”……“B”的值为“2”。

我们的主题有3个分区,由于一致性哈希,具有相同键的消息始终进入同一分区,因此所有键为“A”的消息都会在一起分组,键为B和C的消息也是如此。

现在,由于每个分区只有一个消费者,它们只按顺序接收消息。因此,消费者将在A2之前接收A1,在B2之前接收B1,因此保持了顺序。

因此,对于3个分区,您可以最多拥有3个消费者,如果有4个消费者,一个消费者将处于空闲状态。但对于3个分区,您可以有2个消费者,然后一个消费者将从一个分区读取,另一个消费者将从两个分区读取。

7.代理

单个Kafka服务器。

代理接收来自生产者的消息,为它们分配偏移量,然后将它们提交到分区日志,基本上是将数据写入磁盘,这赋予了Kafka其持久性特性。

8.集群

由多个代理节点协同工作以提供可扩展性、可用性和容错性的集群。集群中的一个代理充当控制器,负责将分区分配给代理。

当一个分区被复制到3个代理时,其中一个代理将充当该分区的领导者,其余两个将成为追随者。

数据始终写入领导者代理,然后复制到追随者。通过这种方式,我们既不会丢失数据,也不会丢失集群的可用性,如果领导者崩溃,将选举出另一个领导者。

让我们深入一些编程内容:

  • 创建一个主题,创建该主题的5个分区,并将所有5个主题的数据复制到总共3个节点。
  • kafka-topics — create — zookeeper zookeeper:2181 — topic Applog — partitions 5 — replication-factor 3

Zookeeper

在集群中多次听到这个术语,让我们看看它是什么?

Zookeeper作为Kafka的中央配置和共识管理系统。它跟踪代理、主题和分区分配、领导者选举,基本上是有关集群的所有元数据。

结束语

Kafka是一款出色的软件,具有丰富的功能,可以在各种用例中使用。Kafka非常适合现代分布式系统,因为它是通过设计分布式的。它最初由LinkedIn创建,目前由Confluent维护。像Uber.NETflix、Activision、Spotify、Slack、Pinterest、Coursera等顶级科技公司都在使用它。我们了解了Kafka的核心概念,以帮助您入门。还有很多其他东西,比如Kafka Stream API或kSql,由于时间有限,我们没有讨论。



Tags:Kafka   点击:()  评论:()
声明:本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作,风险自担。如有任何标注错误或版权侵犯请与我们联系,我们将及时更正、删除。
▌相关推荐
Spring实现Kafka重试Topic,真的太香了
概述Kafka的强大功能之一是每个分区都有一个Consumer的偏移值。该偏移值是消费者将读取的下一条消息的值。可以自动或手动增加该值。如果我们由于错误而无法处理消息并想重...【详细内容】
2024-01-26  Search: Kafka  点击:(84)  评论:(0)  加入收藏
如何使用Python、Apache Kafka和云平台构建健壮的实时数据管道
译者 | 李睿审校 | 重楼在当今竞争激烈的市场环境中,为了生存和发展,企业必须能够实时收集、处理和响应数据。无论是检测欺诈、个性化用户体验还是监控系统,现在都需要接近即时...【详细内容】
2024-01-26  Search: Kafka  点击:(46)  评论:(0)  加入收藏
深入浅出Kafka:高可用、顺序消费及幂等性
在我们旅行于数据海洋的途中,如果把 Kafka 比作是一艘承载无数信息航行的快船,前文《Kafka实战漫谈:大数据领域的不败王者》已经讲述了如何搭建起这艘快船,让它在起风的早晨开始...【详细内容】
2023-12-18  Search: Kafka  点击:(172)  评论:(0)  加入收藏
7k Star,一款开源的 Kafka 管理平台,功能齐全、页面美观!
Apache Kafka UI 是一个免费的开源 Web UI,用于监控和管理 Apache Kafka 集群,可方便地查看 Kafka Brokers、Topics、消息、Consumer 等情况,支持多集群管理、性能监控、访问控...【详细内容】
2023-12-15  Search: Kafka  点击:(129)  评论:(0)  加入收藏
利用Apache Kafka、Flink和Druid构建实时数据架构
译者 | 陈峻审校 | 重楼如今,对于使用批处理工作流程的数据团队而言,要满足业务的实时要求并非易事。从数据的交付、处理到分析,整个批处理工作流往往需要大量的等待,其中包括:等...【详细内容】
2023-12-11  Search: Kafka  点击:(227)  评论:(0)  加入收藏
运维兄弟!Kafka怎么又"超时"了?
现象凌晨,当运维刚躺下,就被业务研发的电话叫醒,"哥们!kafka服务又异常了?影响到业务了,快看看",业务研发给出的异常日志如下:基本分析 集群检查:立即确认kafka集群以及涉及到topic健...【详细内容】
2023-12-07  Search: Kafka  点击:(137)  评论:(0)  加入收藏
图解Kafka适用场景,全网最全!
消息系统消息系统被用于各种场景,如解耦数据生产者,缓存未处理的消息。Kafka 可作为传统的消息系统的替代者,与传统消息系统相比,kafka有更好的吞吐量、更好的可用性,这有利于处...【详细内容】
2023-11-29  Search: Kafka  点击:(183)  评论:(0)  加入收藏
Kafka有哪些应用场景?你能说上来几个?
下面我们来总结一下Kafka的一些应用场景:1、日志处理与分析(最常用的场景)下图显示了典型的 ELK(Elastic-Logstash-Kibana)堆栈。Kafka 有效地从每个实例收集日志流。ElasticSe...【详细内容】
2023-11-28  Search: Kafka  点击:(163)  评论:(0)  加入收藏
Kafka:解锁大数据时代的搜索与分析
在当今大数据时代,数据湖作为一种新兴的数据存储和分析解决方案,正受到越来越多企业的青睐。而作为一种高性能、可扩展的事件流平台,Kafka在数据湖领域发挥着重要的作用。本文...【详细内容】
2023-11-24  Search: Kafka  点击:(287)  评论:(0)  加入收藏
解密Kafka主题的分区策略:提升实时数据处理的关键
Kafka几乎是当今时代背景下数据管道的首选,无论你是做后端开发、还是大数据开发,对它可能都不陌生。开源软件Kafka的应用越来越广泛。面对Kafka的普及和学习热潮,哪吒想分享一...【详细内容】
2023-11-21  Search: Kafka  点击:(180)  评论:(0)  加入收藏
▌简易百科推荐
对于微服务架构监控应该遵守的原则
随着软件交付方式的变革,微服务架构的兴起使得软件开发变得更加快速和灵活。在这种情况下,监控系统成为了微服务控制系统的核心组成部分。随着软件的复杂性不断增加,了解系统的...【详细内容】
2024-04-03  步步运维步步坑    Tags:架构   点击:(5)  评论:(0)  加入收藏
大模型应用的 10 种架构模式
作者 | 曹洪伟在塑造新领域的过程中,我们往往依赖于一些经过实践验证的策略、方法和模式。这种观念对于软件工程领域的专业人士来说,已经司空见惯,设计模式已成为程序员们的重...【详细内容】
2024-03-27    InfoQ  Tags:架构模式   点击:(13)  评论:(0)  加入收藏
哈啰云原生架构落地实践
一、弹性伸缩技术实践1.全网容器化后一线研发的使用问题全网容器化后一线研发会面临一系列使用问题,包括时机、容量、效率和成本问题,弹性伸缩是云原生容器化后的必然技术选择...【详细内容】
2024-03-27  哈啰技术  微信公众号  Tags:架构   点击:(10)  评论:(0)  加入收藏
DDD 与 CQRS 才是黄金组合
在日常工作中,你是否也遇到过下面几种情况: 使用一个已有接口进行业务开发,上线后出现严重的性能问题,被老板当众质疑:“你为什么不使用缓存接口,这个接口全部走数据库,这怎么能扛...【详细内容】
2024-03-27  dbaplus社群    Tags:DDD   点击:(11)  评论:(0)  加入收藏
高并发架构设计(三大利器:缓存、限流和降级)
软件系统有三个追求:高性能、高并发、高可用,俗称三高。本篇讨论高并发,从高并发是什么到高并发应对的策略、缓存、限流、降级等。引言1.高并发背景互联网行业迅速发展,用户量剧...【详细内容】
2024-03-13    阿里云开发者  Tags:高并发   点击:(6)  评论:(0)  加入收藏
如何判断架构设计的优劣?
架构设计的基本准则是非常重要的,它们指导着我们如何构建可靠、可维护、可测试的系统。下面是这些准则的转换表达方式:简单即美(KISS):KISS原则的核心思想是保持简单。在设计系统...【详细内容】
2024-02-20  二进制跳动  微信公众号  Tags:架构设计   点击:(36)  评论:(0)  加入收藏
详解基于SpringBoot的WebSocket应用开发
在现代Web应用中,实时交互和数据推送的需求日益增长。WebSocket协议作为一种全双工通信协议,允许服务端与客户端之间建立持久性的连接,实现实时、双向的数据传输,极大地提升了用...【详细内容】
2024-01-30  ijunfu  今日头条  Tags:SpringBoot   点击:(9)  评论:(0)  加入收藏
PHP+Go 开发仿简书,实战高并发高可用微服务架构
来百度APP畅享高清图片//下栽のke:chaoxingit.com/2105/PHP和Go语言结合,可以开发出高效且稳定的仿简书应用。在实现高并发和高可用微服务架构时,我们可以采用一些关键技术。首...【详细内容】
2024-01-14  547蓝色星球    Tags:架构   点击:(115)  评论:(0)  加入收藏
GraalVM与Spring Boot 3.0:加速应用性能的完美融合
在2023年,SpringBoot3.0的发布标志着Spring框架对GraalVM的全面支持,这一支持是对Spring技术栈的重要补充。GraalVM是一个高性能的多语言虚拟机,它提供了Ahead-of-Time(AOT)编...【详细内容】
2024-01-11    王建立  Tags:Spring Boot   点击:(124)  评论:(0)  加入收藏
Spring Boot虚拟线程的性能还不如Webflux?
早上看到一篇关于Spring Boot虚拟线程和Webflux性能对比的文章,觉得还不错。内容较长,抓重点给大家介绍一下这篇文章的核心内容,方便大家快速阅读。测试场景作者采用了一个尽可...【详细内容】
2024-01-10  互联网架构小马哥    Tags:Spring Boot   点击:(115)  评论:(0)  加入收藏
站内最新
站内热门
站内头条