Kafka 数据积压与数据重复的处理案例

时间：2024-02-28 11:09:06 来源：今日头条作者：程哥编程

当使用Kafka作为消息传递系统时，数据积压和数据重复是常见的问题。下面是处理这些问题的案例：

数据积压处理：

增加消费者数量：如果数据积压严重，可以增加消费者实例的数量来提高消费速度。

Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "consumer-group");

// 增加消费者数量
props.put("max.poll.records", 500); // 每次拉取的最大记录数
props.put("max.partition.fetch.bytes", 1048576); // 每次拉取的最大字节数

KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singletonList("topic"));

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        // 处理消息
    }
}

调整消费者组的分区分配策略：Kafka将主题的分区分配给消费者组中的消费者实例。通过调整分区分配策略，可以确保每个消费者实例处理的分区数量均衡，从而提高整体的消费能力。

consumer.subscribe(Collections.singletonList("topic"), new ConsumerRebalanceListener() {
    @Override
    public void onPartitionsRevoked(Collection<TopicPartition> partitions) {
        // 在重新分配分区之前，进行一些清理工作
    }

    @Override
    public void onPartitionsAssigned(Collection<TopicPartition> partitions) {
        // 在分配新的分区之后，进行一些初始化工作
    }
});

提高消费者的处理能力：优化消费者逻辑，例如使用批量处理消息、使用多线程或异步处理等方式，以提高消费者的处理速度。

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    List<SomeRecord> batch = new ArrayList<>();
    
    for (ConsumerRecord<String, String> record : records) {
        SomeRecord processedRecord = processRecord(record);
        batch.add(processedRecord);
        
        if (batch.size() >= 100) {
            // 批量处理消息
            saveBatchToDatabase(batch);
            batch.clear();
        }
    }
    
    if (!batch.isEmpty()) {
        // 处理剩余的消息
        saveBatchToDatabase(batch);
    }
}

扩展Kafka集群：增加更多的Kafka代理节点和分区，以提高整体的消息处理能力。

数据重复处理：

使用消息的唯一标识：在生产者端为每条消息设置一个唯一的标识符，消费者在处理消息时可以根据标识符进行去重。可以使用消息中的某个字段或生成全局唯一标识符（GUID）作为消息的标识符。

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        String messageId = record.key();
        
        if (!isMessageProcessed(messageId)) {
            // 处理消息
            processRecord(record);
            
            // 标记消息为已处理
            markMessageAsProcessed(messageId);
        }
    }
}

使用事务：如果消息的处理涉及到数据的修改操作，可以使用Kafka的事务功能来保证消息的幂等性和一致性。

Properties props = new Properties();
props.put("bootstrap.servers", "localhost:9092");
props.put("group.id", "consumer-group");

// 设置事务ID
props.put("transactional.id", "kafka-transactional-id");

KafkaConsumer<String, String> consumer = new KafkaConsumer<>(props);
consumer.subscribe(Collections.singletonList("topic"));

consumer.beginTransaction();
try {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        // 处理消息
        processRecord(record);
    }
    
    consumer.commitTransaction();
} catch (Exception e) {
    consumer.abortTransaction();
}

消费者端去重：在消费者端维护一个已处理消息的记录，例如使用数据库或缓存，每次接收到消息时先查询记录，如果已存在则忽略该消息。

Set<String> processedMessages = new HashSet<>();

while (true) {
    ConsumerRecords<String, String> records = consumer.poll(Duration.ofMillis(100));
    for (ConsumerRecord<String, String> record : records) {
        String messageId = record.key();
        
        if (!processedMessages.contAIns(messageId)) {
            // 处理消息
            processRecord(record);
            
            // 添加到已处理消息集合
            processedMessages.add(messageId);
        }
    }
}

消费者端幂等性处理：在消费者端的业务逻辑中实现幂等性，即使接收到重复的消息，也能保证最终的处理结果是一致的。

针对数据积压和数据重复问题的解决方案需要根据具体的业务需求和系统情况进行调整和优化。此外，监控和度量系统也是非常重要的，可以帮助及时发现和解决数据积压和重复问题。

Tags：Kafka 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Kafka 数据积压与数据重复的处理案例

当使用Kafka作为消息传递系统时，数据积压和数据重复是常见的问题。下面是处理这些问题的案例：数据积压处理：增加消费者数量：如果数据积压严重，可以增加消费者实例的数量来提高...【详细内容】

2024-02-28　　Search: Kafka 点击:(0)　　评论:(0)　　加入收藏

Spring实现Kafka重试Topic，真的太香了

概述Kafka的强大功能之一是每个分区都有一个Consumer的偏移值。该偏移值是消费者将读取的下一条消息的值。可以自动或手动增加该值。如果我们由于错误而无法处理消息并想重...【详细内容】

2024-01-26　　Search: Kafka 点击:(97)　　评论:(0)　　加入收藏

如何使用Python、Apache Kafka和云平台构建健壮的实时数据管道

译者 | 李睿审校 | 重楼在当今竞争激烈的市场环境中，为了生存和发展，企业必须能够实时收集、处理和响应数据。无论是检测欺诈、个性化用户体验还是监控系统，现在都需要接近即时...【详细内容】

2024-01-26　　Search: Kafka 点击:(50)　　评论:(0)　　加入收藏

深入浅出Kafka：高可用、顺序消费及幂等性

在我们旅行于数据海洋的途中，如果把 Kafka 比作是一艘承载无数信息航行的快船，前文《Kafka实战漫谈：大数据领域的不败王者》已经讲述了如何搭建起这艘快船，让它在起风的早晨开始...【详细内容】

2023-12-18　　Search: Kafka 点击:(180)　　评论:(0)　　加入收藏

7k Star，一款开源的 Kafka 管理平台，功能齐全、页面美观！

Apache Kafka UI 是一个免费的开源 Web UI，用于监控和管理 Apache Kafka 集群，可方便地查看 Kafka Brokers、Topics、消息、Consumer 等情况，支持多集群管理、性能监控、访问控...【详细内容】

2023-12-15　　Search: Kafka 点击:(138)　　评论:(0)　　加入收藏

利用Apache Kafka、Flink和Druid构建实时数据架构

译者 | 陈峻审校 | 重楼如今，对于使用批处理工作流程的数据团队而言，要满足业务的实时要求并非易事。从数据的交付、处理到分析，整个批处理工作流往往需要大量的等待，其中包括：等...【详细内容】

2023-12-11　　Search: Kafka 点击:(244)　　评论:(0)　　加入收藏

运维兄弟！Kafka怎么又"超时"了？

现象凌晨，当运维刚躺下，就被业务研发的电话叫醒，"哥们！kafka服务又异常了？影响到业务了，快看看"，业务研发给出的异常日志如下：基本分析集群检查：立即确认kafka集群以及涉及到topic健...【详细内容】

2023-12-07　　Search: Kafka 点击:(143)　　评论:(0)　　加入收藏

图解Kafka适用场景，全网最全！

消息系统消息系统被用于各种场景，如解耦数据生产者，缓存未处理的消息。Kafka 可作为传统的消息系统的替代者，与传统消息系统相比，kafka有更好的吞吐量、更好的可用性，这有利于处...【详细内容】

2023-11-29　　Search: Kafka 点击:(186)　　评论:(0)　　加入收藏

Kafka有哪些应用场景？你能说上来几个？

下面我们来总结一下Kafka的一些应用场景：1、日志处理与分析(最常用的场景)下图显示了典型的 ELK（Elastic-Logstash-Kibana）堆栈。Kafka 有效地从每个实例收集日志流。ElasticSe...【详细内容】

2023-11-28　　Search: Kafka 点击:(167)　　评论:(0)　　加入收藏

Kafka：解锁大数据时代的搜索与分析

在当今大数据时代，数据湖作为一种新兴的数据存储和分析解决方案，正受到越来越多企业的青睐。而作为一种高性能、可扩展的事件流平台，Kafka在数据湖领域发挥着重要的作用。本文...【详细内容】

2023-11-24　　Search: Kafka 点击:(297)　　评论:(0)　　加入收藏

▌简易百科推荐

向量数据库落地实践

本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见： https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】

2024-04-03　　京东云开发者　　　　Tags:向量数据库　点击:(12)　　评论:(0)　　加入收藏

原来 SQL 函数是可以内联的！

介绍在某些情况下，SQL 函数（即指定LANGUAGE SQL）会将其函数体内联到调用它的查询中，而不是直接调用。这可以带来显著的性能提升，因为函数体可以暴露给调用查询的规划器，从而规划器...【详细内容】

2024-04-03　　红石PG　　微信公众号　　Tags:SQL 函数　点击:(9)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出，业界对于NoSQL数据库的需求正在持续上升。2022年，全球NoSQL市场的销售额已达73亿美元，预计到2032年将达...【详细内容】

2024-03-28　　　　51CTO　　Tags:NoSQL 　点击:(21)　　评论:(0)　　加入收藏

为什么数据库连接池不采用 IO 多路复用？

这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时，还是经常性采用c3p0，tomcat connection pool等技术来与DB连接，哪怕整个程序已经变成以...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:数据库连接池　点击:(21)　　评论:(0)　　加入收藏

八个常见的数据可视化错误以及如何避免它们

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】

2024-03-26　　DeepHub IMBA　　微信公众号　　Tags:数据可视化　点击:(14)　　评论:(0)　　加入收藏

到底有没有必要分库分表，如何考量的

关于是否需要进行分库分表，可以根据以下考量因素来决定：数据量和负载：如果数据量巨大且负载压力较大，单一库单一表可能无法满足性能需求，考虑分库分表。数据增长：预估数据增长...【详细内容】

2024-03-20　　码上遇见你　　微信公众号　　Tags:分库分表　点击:(20)　　评论:(0)　　加入收藏

在 SQL 中写了 in 和 not in，技术总监说要炒了我……

WHY？IN 和 NOT IN 是比较常用的关键字，为什么要尽量避免呢？1、效率低项目中遇到这么个情况：t1表和 t2表都是150w条数据，600M的样子，都不算大。但是这样一句查询 ↓select *...【详细内容】

2024-03-18　　dbaplus社群　　　　Tags:SQL 　点击:(20)　　评论:(0)　　加入收藏

应对慢SQL的致胜法宝：7大实例剖析+优化原则

大促备战，最大的隐患项之一就是慢SQL，对于服务平稳运行带来的破坏性最大，也是日常工作中经常带来整个应用抖动的最大隐患，在日常开发中如何避免出现慢SQL，出现了慢SQL应该按照什...【详细内容】

2024-03-14　　京东云开发者　　　　Tags:慢SQL 　点击:(14)　　评论:(0)　　加入收藏

过去一年，我看到了数据库领域的十大发展趋势

作者 | 朱洁策划 | 李冬梅过去一年，行业信心跌至冰点2022 年中，红衫的一篇《适应与忍耐》的报告，对公司经营提出了预警，让各个公司保持现金流，重整团队，想办法增加盈利。这篇报告...【详细内容】

2024-03-12　　　　InfoQ　　Tags:数据库　点击:(39)　　评论:(0)　　加入收藏

SQL优化的七个方法，你会哪个？

一、插入数据优化普通插入：在平时我们执行insert语句的时候，可能都是一条一条数据插入进去的，就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】

2024-03-07　　程序员恰恰　　微信公众号　　Tags:SQL优化　点击:(28)　　评论:(0)　　加入收藏

推荐资讯

Go 最大挑战、AI 方向	融汇11款AI工具构建完
探讨视觉追踪技术在VR	使用 PHP 处理十亿行
男女之间，无论关系多好	普通人一辈子存款的天
黄金为何能跑赢美股—	iPhone 16要取消实体