如何确定Apache Kafka的大小和规模

时间：2023-10-23 15:36:05 来源：51CTO 作者：

如何确定Apache Kafka的大小和规模
作者丨Andrew Mills

编译丨云昭

调整或扩展Kafka以获得最佳成本和性能的第一步是了解数据流平台如何使用资源。这里给一些实用的建议。

实现Apache Kafka的团队，或者扩展他们对强大的开源分布式事件流平台的使用，通常需要帮助理解如何根据他们的需求正确地调整和扩展Kafka资源。这可能很棘手。

无论您是在考虑云资源还是预处理硬件资源，了解Kafka集群将如何利用CPU、RAM和存储（并了解应遵循的最佳实践），都将使您处于一个更好的位置，可以立即获得正确的规模。结果将是成本和性能之间的优化平衡。让我们来看看Kafka是如何使用资源的，浏览一个有指导意义的用例，以及优化Kafka部署的最佳实践。

1、Kafka如何利用CPU的？

一般来说，Apache Kafka在CPU利用率方面比较轻。在选择基础设施时，我倾向于拥有更多的核心而不是更快的核心，以提高并行化水平。影响CPU使用量的因素有很多，其中最主要的是SSL身份验证和日志压缩。其他考虑因素是每个代理拥有的分区数量、有多少数据将进入磁盘、Kafka消费者的数量（此处详细介绍），以及这些消费者离实时性有多近。如果您的数据消费者正在获取旧数据，那么从磁盘获取数据将花费CPU时间。我们将在下一节中对此进行深入探讨。

了解CPU使用背后的这些基本驱动因素对于帮助团队正确确定可用CPU功率至关重要。

2、Kafka如何使用RAM的？

RAM需求主要取决于需要在内存中保留多少“热”数据并可用于快速访问。一旦收到消息，Kafka就会将数据交给底层操作系统的页面缓存，后者负责将数据保存到磁盘。

从大小和可伸缩性的角度来看，RAM的正确数量取决于您的用例的数据访问模式。如果您的团队将Kafka部署为实时数据流（使用转换并公开消费者将在几秒钟内提取的数据），则RAM需求通常很低，因为只需要在内存中存储几秒钟的数据。或者，如果您的Kafka消费者需要提取几分钟或几小时的数据，那么您需要考虑RAM中需要多少数据。

CPU和RAM利用率之间的关系很重要。如果Kafka可以访问RAM中的数据，那么它就不必花费CPU资源从磁盘中获取数据。如果RAM中没有可用的数据，代理程序将从磁盘中提取数据，从而消耗CPU资源，并在数据传递中增加一些延迟。实现Kafka的团队在调整CPU和RAM资源时应该考虑到这种关系。

3、Kafka如何使用存储

有几个因素会影响Kafka存储需求，如保留时间、数据转换和适当的复制因素。考虑这个例子：每天有几TB的数据落在一个Kafka主题上，使用Kafka对该数据执行六次转换以保留中间数据，每个主题保留数据三天，复制因子设置为3。很容易看出，团队可以根据使用Kafka的方式，将存储的数据需求快速增加一倍、三倍或四倍。您需要充分了解这些因素才能正确确定存储大小。

4、Kafka预定大小示例

以下是我们工作中的一个真实例子，帮助媒体娱乐行业的服务提供商正确确定预先部署的Kafka的规模。该业务的峰值吞吐量入口为每秒10GB。组织需要存储10%的数据（每天总计9TB），并将这些数据保留30天。从复制的角度来看，该公司将存储该数据的三个拷贝，总存储需求为810TB。为了应对潜在的峰值，明智的做法是在预期需求的基础上增加30-40%的空间，这意味着组织应该有1.2PB的可用存储空间。它们不使用SSL，而且大多数消费者都需要实时数据，因此CPU和RAM需求不如存储重要。他们确实有一些批处理进程在运行，但延迟不是一个问题，所以数据来自磁盘是安全的。

虽然这个特定的用例仍在构建中，但该示例演示了使用基本数据计算给定Kafka实现的最小有效规模的过程，然后从中探索扩大场景的潜在需求。

5、Kafka容量规划最佳实践

了解给定用例的特定体系结构——主题设计、消息大小、消息量、数据访问模式、消费者数量等——可以提高预测大小的准确性。在考虑每个代理的适当存储密度时，请考虑在由于热点或代理丢失而重新分配分区期间重新流式传输数据所需的时间。如果你将100TB连接到Kafka代理，但它失败了，那么你正在重新传输大量数据。这可能会导致网络饱和，从而阻碍入口或出口流量，并导致生产商失败。有一些方法可以抑制回流，但你会发现平均恢复时间显著增加。

6、常见的误解

现在，越来越多的供应商为Kafka提供专有的分层存储，并将Kafka作为数据库或数据湖。卡夫卡不是一个数据库。虽然您可以使用Kafka进行长期存储，但您必须了解其中的权衡。

从Kafka作为实时数据流引擎到充当数据库或数据湖的演变属于一种熟悉的模式。专门为特定用例设计的技术有时会成为某些用户的锤子，然后每个问题都像钉子一样。这些用户将尝试修改专门构建的工具以适应他们的用例，而不是查看已经解决问题的其他技术。

这让我想起了Apache Cassandra意识到来自关系世界的用户正在努力理解数据模型在扁平行中的重要性。用户在开始存储数据之前不习惯理解访问模式，他们只会在现有表上添加另一个索引。在Cassandra v3.0中，该项目公开了物化视图，类似于索引关系表，但实现方式不同。从那时起，这个功能就充满了问题，并被标记为实验性的。我觉得Kafka作为数据库或数据湖的想法注定会有类似的命运。

7、找到合适的尺寸以获得最佳成本和Kafka性能

在没有首先了解Kafka资源利用率的情况下匆忙进入Kafka实现的团队经常会遇到问题和障碍，这些问题和障碍教会了他们艰难的道路。通过花时间了解Kafka的资源需求，团队将实现更高效的成本和性能，他们将能够更有效地支持他们的应用程序。

参考链接： https://www.infoworld.com/article/3708250/how-to-size-and-scale-apache-kafka-without-tears.html

Tags：Kafka 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Spring实现Kafka重试Topic，真的太香了

概述Kafka的强大功能之一是每个分区都有一个Consumer的偏移值。该偏移值是消费者将读取的下一条消息的值。可以自动或手动增加该值。如果我们由于错误而无法处理消息并想重...【详细内容】

2024-01-26　　Search: Kafka 点击:(84)　　评论:(0)　　加入收藏

如何使用Python、Apache Kafka和云平台构建健壮的实时数据管道

译者 | 李睿审校 | 重楼在当今竞争激烈的市场环境中，为了生存和发展，企业必须能够实时收集、处理和响应数据。无论是检测欺诈、个性化用户体验还是监控系统，现在都需要接近即时...【详细内容】

2024-01-26　　Search: Kafka 点击:(46)　　评论:(0)　　加入收藏

深入浅出Kafka：高可用、顺序消费及幂等性

在我们旅行于数据海洋的途中，如果把 Kafka 比作是一艘承载无数信息航行的快船，前文《Kafka实战漫谈：大数据领域的不败王者》已经讲述了如何搭建起这艘快船，让它在起风的早晨开始...【详细内容】

2023-12-18　　Search: Kafka 点击:(172)　　评论:(0)　　加入收藏

7k Star，一款开源的 Kafka 管理平台，功能齐全、页面美观！

Apache Kafka UI 是一个免费的开源 Web UI，用于监控和管理 Apache Kafka 集群，可方便地查看 Kafka Brokers、Topics、消息、Consumer 等情况，支持多集群管理、性能监控、访问控...【详细内容】

2023-12-15　　Search: Kafka 点击:(128)　　评论:(0)　　加入收藏

利用Apache Kafka、Flink和Druid构建实时数据架构

译者 | 陈峻审校 | 重楼如今，对于使用批处理工作流程的数据团队而言，要满足业务的实时要求并非易事。从数据的交付、处理到分析，整个批处理工作流往往需要大量的等待，其中包括：等...【详细内容】

2023-12-11　　Search: Kafka 点击:(227)　　评论:(0)　　加入收藏

运维兄弟！Kafka怎么又"超时"了？

现象凌晨，当运维刚躺下，就被业务研发的电话叫醒，"哥们！kafka服务又异常了？影响到业务了，快看看"，业务研发给出的异常日志如下：基本分析集群检查：立即确认kafka集群以及涉及到topic健...【详细内容】

2023-12-07　　Search: Kafka 点击:(137)　　评论:(0)　　加入收藏

图解Kafka适用场景，全网最全！

消息系统消息系统被用于各种场景，如解耦数据生产者，缓存未处理的消息。Kafka 可作为传统的消息系统的替代者，与传统消息系统相比，kafka有更好的吞吐量、更好的可用性，这有利于处...【详细内容】

2023-11-29　　Search: Kafka 点击:(183)　　评论:(0)　　加入收藏

Kafka有哪些应用场景？你能说上来几个？

下面我们来总结一下Kafka的一些应用场景：1、日志处理与分析(最常用的场景)下图显示了典型的 ELK（Elastic-Logstash-Kibana）堆栈。Kafka 有效地从每个实例收集日志流。ElasticSe...【详细内容】

2023-11-28　　Search: Kafka 点击:(163)　　评论:(0)　　加入收藏

Kafka：解锁大数据时代的搜索与分析

在当今大数据时代，数据湖作为一种新兴的数据存储和分析解决方案，正受到越来越多企业的青睐。而作为一种高性能、可扩展的事件流平台，Kafka在数据湖领域发挥着重要的作用。本文...【详细内容】

2023-11-24　　Search: Kafka 点击:(287)　　评论:(0)　　加入收藏

解密Kafka主题的分区策略：提升实时数据处理的关键

Kafka几乎是当今时代背景下数据管道的首选，无论你是做后端开发、还是大数据开发，对它可能都不陌生。开源软件Kafka的应用越来越广泛。面对Kafka的普及和学习热潮，哪吒想分享一...【详细内容】

2023-11-21　　Search: Kafka 点击:(180)　　评论:(0)　　加入收藏

▌简易百科推荐

为什么Nginx被称为“反向”代理呢？

Nginx（发音为"engine-x"）是一款高性能、轻量级的开源Web服务器软件，也可用作反向代理服务器、负载均衡器和HTTP缓存。Nginx之所以有被称为“反向”代理，是因为它充当客户端设备...【详细内容】

2024-02-01　　coderidea　　微信公众号　　Tags:Nginx 　点击:(59)　　评论:(0)　　加入收藏

哪种服务器操作系统更好呢？

在当今的IT世界中，服务器操作系统扮演着至关重要的角色。它们是确保服务器能够高效、安全地运行的关键因素。然而，对于许多人来说，服务器操作系统的种类和特点可能是一个复杂的...【详细内容】

2024-01-30　　　　简易百科　　Tags:操作系统　点击:(75)　　评论:(0)　　加入收藏

什么是VPS服务器

VPS服务器是一种虚拟化技术，它将一台物理服务器划分为多个虚拟的独立服务器，每个虚拟服务器都可以拥有自己的操作系统、运行环境、应用程序等。这种技术使得每个虚拟服务器可...【详细内容】

2024-01-30　　　　简易百科　　Tags:VPS服务器　点击:(67)　　评论:(0)　　加入收藏

VPS服务器下载速度慢?这五招帮你提速

VPS服务器下载速度慢可能会让用户感到沮丧，尤其是对于需要大量下载和上传数据的用户。幸运的是，有一些方法可以帮助您提高VPS服务器的下载速度，使您的在线体验更加顺畅。在本文...【详细内容】

2024-01-30　　IDC行业观察者　　　　Tags:VPS服务器　点击:(57)　　评论:(0)　　加入收藏

美国VPS和英国VPS：地理位置对服务器性能的影响

在今天的数字时代，VPS已成为在线业务和网站托管的关键组成部分。然而，选择合适的VPS主机服务时，地理位置通常被忽视，尽管它对服务器性能有着重要的影响。本文将探讨美国VPS和英...【详细内容】

2024-01-26　　IDC行业观察者　　　　Tags:服务器　点击:(52)　　评论:(0)　　加入收藏

如何判断服务器所需带宽：基于业务需求和流量模式的关键考量

在选择服务器时，带宽是一个重要的考虑因素。带宽的大小直接影响到网站的加载速度和用户的访问体验。那么，如何判断服务器需要多大的带宽呢?本文将为你揭示这一关键问题的答案...【详细内容】

2024-01-26　　源库科技　　　　Tags:服务器　点击:(74)　　评论:(0)　　加入收藏

服务器内存空间及IO操作原理解析

服务器的内存空间分为内核空间和用户空间，而我们编写的程序通常在用户空间中运行。在进行读写操作时，我们直接操作的是用户缓冲区，而用户缓冲区的内容来自于内核缓冲区。这种内...【详细内容】

2024-01-23　　王建立　　　　Tags:服务器　点击:(42)　　评论:(0)　　加入收藏

如何在Java环境中安装Nginx？

1. 下载Nginx：首先，前往Nginx官方网站（https://nginx.org/en/download.html）下载新版本的Nginx。选择适合您操作系统的版本，通常有Windows、Linux和Mac等不同操作系统的版本可供...【详细内容】

2024-01-22　　敲代码的小动　　　　Tags:Nginx 　点击:(59)　　评论:(0)　　加入收藏

服务器证书和SSL证书有啥区别？

在互联网经济时代，随着越来越多的信息以及合作都是从企业官网开始的，因此绝大多数企业都会为自己的网站配置SSL证书，以提高安全性。在接触SSL证书时，也有很多人称之为服务器证书...【详细内容】

2024-01-10　　安信SSL证书　　　　Tags:服务器证书　点击:(65)　　评论:(0)　　加入收藏

宝塔面板怎样部署java项目？

宝塔面板怎样部署java项目？在使用宝塔面板部署Java项目之前，需要确保已经安装了Java Development Kit (JDK)。接下来，将介绍如何使用宝塔面板来部署Java项目的步骤。步骤一：安装...【详细内容】

2024-01-09　　西部数码　　　　Tags:宝塔面板　点击:(105)　　评论:(0)　　加入收藏

推荐资讯

美联储年内可能不降息	热门黄金ETF瞬间跌停！
亏本卖！李嘉诚这又在唱	变味的重整：揭秘市值“
危急！日元，突遭空袭！影响	特斯拉的第三次危机：钝
疯狂特斯拉！市值一夜飙	Prada的后30亿欧元时