展示Kafka工作方式的简单架构。
它是一个 分布式流处理平台或分布式 提交日志。
Kafka通常用于实时流数据管道,即在系统之间传输数据,构建不断流动的数据转换系统和构建事件驱动的系统。
它确实可以充当消息队列,但不仅限于此。它可以充当FIFO队列、发布/订阅消息系统、实时流处理平台。由于Kafka的持久性存储能力,甚至可以用作数据库。
Kafka作为一个由一个或多个节点组成的集群工作,这些节点可以位于不同的数据中心,我们可以将数据/负载分布到Kafka集群中的不同节点,它具有固有的可扩展性、可用性和容错性。
Kafka将数据存储为一系列连续的记录,可以以不同的方法进行处理。
当您将数据推送到Kafka时,它会将它们附加到记录流中,就像将日志附加到日志文件中一样。
为了理解这一点,让我们深入研究关键主题:
我们可以将主题视为Kafka中的消息的逻辑类别,它们是相同类型数据的流。
Image.jpeg
(1) 将消息发布到Kafka主题的Kafka客户端。
生产者用于决定将消息发送到哪个分区。根据不同的配置和参数,生产者决定目标分区。
让我们检查不同的情况:
(2) 您可以以3种方式将消息发送到Kafka。
我们还可以在将消息发送到代理之前在生产者上配置特性。
为了获得更好的性能,我们可以使用Avro序列化/反序列化器。
消费者以有序的方式从分区中读取消息。
每次消费者读取一条消息时,它都会将偏移值存储到Kafka或Zookeeper上,表示它是消费者读取的最后一条消息。
因此,如果消费者节点崩溃,它可以恢复到上次读取的位置。此外,如果在任何时候消费者需要回到过去并读取旧消息,它只需重置偏移位置即可。
(1) 轮询循环:
您可以配置分区分配策略。
尝试在重新平衡时最小化影响,保持大部分分配不变,但允许协作重新平衡批处理大小。我们可以配置每次轮询调用返回多少条记录和多少数据。
(2) 提交偏移量:
在读取消息时,我们可以更新消费者的偏移位置,这称为提交偏移量。可以启用自动提交,或者应用程序可以显式地提交偏移量。这可以同步和异步两种方式完成。
一组消费者一起工作,从一个主题中读取消息。
1扇出交换: 可以由多个消费者组订阅单个主题。
一个实时示例是OTP发送服务,可以在号码上发送OTP,也可以发送到电子邮件。
Otp示例
1.订单保证: 一个分区不能由同一个消费者组中的多个消费者读取。这由消费者组启用,只有消费者组中的一个消费者可以从单个分区读取。
在这里,生产者生成6条消息。每条消息都是键值对,假设键“A”的值为“1”,“C”的值为“1”,“B”的值为“1”,“C”的值为“2”……“B”的值为“2”。
我们的主题有3个分区,由于一致性哈希,具有相同键的消息始终进入同一分区,因此所有键为“A”的消息都会在一起分组,键为B和C的消息也是如此。
现在,由于每个分区只有一个消费者,它们只按顺序接收消息。因此,消费者将在A2之前接收A1,在B2之前接收B1,因此保持了顺序。
因此,对于3个分区,您可以最多拥有3个消费者,如果有4个消费者,一个消费者将处于空闲状态。但对于3个分区,您可以有2个消费者,然后一个消费者将从一个分区读取,另一个消费者将从两个分区读取。
单个Kafka服务器。
代理接收来自生产者的消息,为它们分配偏移量,然后将它们提交到分区日志,基本上是将数据写入磁盘,这赋予了Kafka其持久性特性。
由多个代理节点协同工作以提供可扩展性、可用性和容错性的集群。集群中的一个代理充当控制器,负责将分区分配给代理。
当一个分区被复制到3个代理时,其中一个代理将充当该分区的领导者,其余两个将成为追随者。
数据始终写入领导者代理,然后复制到追随者。通过这种方式,我们既不会丢失数据,也不会丢失集群的可用性,如果领导者崩溃,将选举出另一个领导者。
在集群中多次听到这个术语,让我们看看它是什么?
Zookeeper作为Kafka的中央配置和共识管理系统。它跟踪代理、主题和分区分配、领导者选举,基本上是有关集群的所有元数据。
Kafka是一款出色的软件,具有丰富的功能,可以在各种用例中使用。Kafka非常适合现代分布式系统,因为它是通过设计分布式的。它最初由LinkedIn创建,目前由Confluent维护。像Uber.NETflix、Activision、Spotify、Slack、Pinterest、Coursera等顶级科技公司都在使用它。我们了解了Kafka的核心概念,以帮助您入门。还有很多其他东西,比如Kafka Stream API或kSql,由于时间有限,我们没有讨论。