数据库同步 Elasticsearch 后数据不一致，怎么办

时间：2023-04-18 16:36:37 来源：今日头条作者：老李讲安全

在日常数据存储和查询时，很多小伙伴都喜欢用ES做索引，很多还把ES当成数据库来用。诚然ES的读写性能非常优秀，但是大家有没有遇到过ES丢数据的问题？也就是说数据库和ES的数据不一致。今天老李正好看在公众号铭毅天下Elasticsearch上看到一篇介绍这个问题的文章，里面的内容写的非常的清楚，把对数据的方法和思路全都理了出来。下面把文章分享给大家，希望能够使大家在日常工作中少踩一点坑。当然了，能用来填坑就更好了。

1、实战线上问题

Q1：Logstash 同步 postgreSQL 到 Elasticsearch 数据不一致。

在使用 Logstash 从 pg 库中将一张表导入到 ES 中时，发现 ES 中的数据量和 PG 库中的这张表的数据量存在较大差距。如何快速比对哪些数据没有插入？导入过程中，Logstash 日志没有异常。PG 中这张表有 7600W。

Q2：mq 异步双写数据库、es 的方案中，如何保证数据库数据和 es 数据的一致性？

2、推荐解决方案之一——ID 比较法

如下示例，仅拿问题1举例验证，问题2原理一致。

2.1 方案探讨

要找出哪些数据没有插入到 Elasticsearch 中，可以采用以下方法：

确保 Logstash 配置文件中的 input 插件的 JDBC 驱动程序正确配置，以便从 PostgreSQL 数据库中提取所有数据。注意 statement 参数，确保它选择了所有需要的数据。
检查 Logstash 配置文件的 output 插件，确保正确配置了 Elasticsearch 的连接参数。同时，检查是否有过滤器在导入过程中过滤掉了部分数据。
在 Logstash 配置文件中添加一个 stdout 插件，将从 PostgreSQL 数据库中读取的数据记录到文件中。

例如，可以添加以下内容：

output {
  elasticsearch {
    ...Elasticsearch 配置...
  }
  stdout {
    codec => json_lines
    path => "/path/to/logstash_output.log"
  }
}

将 Logstash 输出文件与 PostgreSQL 数据库中的原始数据进行比较，以找出未导入的数据。可以使用 Python/ target=_blank class=infotextkey>Python、Shell 脚本或其他编程语言编写一个简单的脚本来执行此操作。

如果 Logstash 输出文件中的记录数与 PostgreSQL 数据库中的记录数一致，但 Elasticsearch 中的记录数不一致，请检查 Elasticsearch 集群的健康状况和日志。确认集群是否在接收和索引数据时遇到问题。

如果问题仍然存在，尝试将批量操作的大小减小，以减轻 Elasticsearch 和 Logstash 的负担。可以通过在 Logstash 配置文件的 output 插件中设置 flush_size 和 idle_flush_time 参数来实现。

处理大量数据时，可能需要调整 Logstash 和 Elasticsearch 的性能和资源配置。根据硬件和网络条件，可能需要优化批量操作、JVM 设置、线程池大小等方面的设置。

2.2 比较脚本的实现

以下是一个简单的 Shell 脚本示例，用于比较 Logstash 输出文件（JSON 格式）和 PostgreSQL 数据库中的数据。该脚本将比较特定字段（如 id）以确定哪些数据可能未导入到 Elasticsearch。

首先，从 PostgreSQL 数据库中导出数据，将其保存为 CSV 文件：

COPY (SELECT id FROM your_table) TO '/path/to/postgres_data.csv' WITH

接下来，创建一个名为 compare.sh 的 Shell 脚本：

#!/bin/bash
# 将 JSON 文件中的 ID 提取到一个文件中
jq '.id' /path/to/logstash_output.log > logstash_ids.txt

# 删除 JSON 中的双引号
sed -i 's/"//g' logstash_ids.txt

# 对 Logstash 和 PostgreSQL 的 ID 文件进行排序
sort -n logstash_ids.txt > logstash_ids_sorted.txt
sort -n /path/to/postgres_data.csv > postgres_ids_sorted.txt

# 使用 comm 比较两个已排序的 ID 文件
comm -23 postgres_ids_sorted.txt logstash_ids_sorted.txt > missing_ids.txt

# 输出结果
echo "以下 ID 在 Logstash 输出文件中未找到："
cat missing_ids.txt

为脚本添加可执行权限并运行：

chmod +x compare.sh

./compare.sh

此脚本会比较 logstash_output.log 和 postgres_data.csv 文件中的 ID。如果发现缺失的 ID，它们将被保存在 missing_ids.txt 文件中，并输出到控制台。请注意，该脚本假设已经安装了 jq（一个命令行 JSON 处理器）。如果没有，请先安装 jq。

3、推荐方案二——redis 加速对比

在这种情况下，可以使用 Redis 的集合数据类型来存储 PostgreSQL 数据库和 Logstash 输出文件中的 ID。接下来，可以使用 Redis 提供的集合操作来找到缺失的 ID。

以下是一个使用 Redis 实现加速比对的示例：

首先，从 PostgreSQL 数据库中导出数据，将其保存为 CSV 文件：

COPY (SELECT id FROM your_table) TO '/path/to/postgres_data.csv' WITH CSV HEADER;

安装并启动 Redis。

使用 Python 脚本将 ID 数据加载到 Redis：

import redis
import csv

# 连接到 Redis

r = redis.StrictRedis(host='localhost', port=6379, db=0)

# 从 PostgreSQL 导出的 CSV 文件中加载数据
with open('/path/to/postgres_data.csv', newline='') as csvfile:
    csv_reader = csv.reader(csvfile)
    next(csv_reader)  # 跳过表头
    for row in csv_reader:
        r.sadd('postgres_ids', row[0])

# 从 Logstash 输出文件中加载数据
with open('/path/to/logstash_output.log', newline='') as logstash_file:
    for line in logstash_file:
        id = line.split('"id":')[1].split(',')[0].strip()
        r.sadd('logstash_ids', id)

# 计算差集
missing_ids = r.sdiff('postgres_ids', 'logstash_ids')

# 输出缺失的 ID
print("以下 ID 在 Logstash 输出文件中未找到：")
for missing_id in missing_ids:
    print(missing_id)

这个 Python 脚本使用 Redis 集合数据类型存储 ID，然后计算它们之间的差集以找到缺失的 ID。需要先安装 Python 的 Redis 库。可以使用以下命令安装：

pip install redis

这个脚本是一个基本示例，可以根据需要修改和扩展它。使用 Redis 的优点是它能在内存中快速处理大量数据，而不需要在磁盘上读取和写入临时文件。

4、小结

方案一：使用 Shell 脚本和 grep 命令

优点：

（1）简单，易于实现。

（2）不需要额外的库或工具。

缺点：

（1）速度较慢，因为它需要在磁盘上读写临时文件。

（2）对于大数据量的情况，可能会导致较高的磁盘 I/O 和内存消耗。

方案二：使用 Redis 实现加速比对

优点：

（1）速度更快，因为 Redis 是基于内存的数据结构存储。

（2）可扩展性较好，可以处理大量数据。

缺点：

（1）实现相对复杂，需要编写额外的脚本。

（2）需要安装和运行 Redis 服务器。

根据需求和数据量，可以选择合适的方案。如果处理的数据量较小，且对速度要求不高，可以选择方案一，使用 Shell 脚本和 grep 命令。这种方法简单易用，但可能在大数据量下表现不佳。

如果需要处理大量数据，建议选择方案二，使用 Redis 实现加速比对。这种方法速度更快，能够有效地处理大数据量。然而，这种方法需要额外的设置和配置，例如安装 Redis 服务器和编写 Python 脚本。

在实际应用中，可能需要根据具体需求进行权衡，以选择最适合的解决方案。

Tags：Elasticsearch 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

Elasticsearch 性能优化详解

硬件配置优化升级硬件设备配置一直都是提高服务能力最快速有效的手段，在系统层面能够影响应用性能的一般包括三个因素：CPU、内存和 IO，可以从这三方面进行 ES 的性能优化工作。...【详细内容】

2024-03-07　　Search: Elasticsearch 点击:(25)　　评论:(0)　　加入收藏

ElasticSearch 的概念解析与使用方式

ElasticSearch（后续简称 ES）在企业中的使用可以说是非常广泛了，那么 ES 到底是什么呢？我们学习 ES 能做到哪些事情呢？接下来我将用几篇文章详细聊一聊 ES。ES 是一款高性能的分布...【详细内容】

2023-12-29　　Search: Elasticsearch 点击:(112)　　评论:(0)　　加入收藏

一口气看完43个关于 ElasticSearch 的实操建议

一、前言本文分享了在工作中关于 ElasticSearch 的一些使用建议。和其他更偏向手册化更注重结论的文章不同，本文将一定程度上阐述部分建议背后的原理及使用姿势参考，避免流于...【详细内容】

2023-12-28　　Search: Elasticsearch 点击:(95)　　评论:(0)　　加入收藏

一口气看完 43 个关于 ElasticSearch 的使用建议

2023-12-19　　Search: Elasticsearch 点击:(175)　　评论:(0)　　加入收藏

Elasticsearch与文件描述符的恩恩怨怨

提到Elasticsearch，让笔者最恶心的倒不是它的反人类的DSL设计，而是每次安装都需要修改进程的最大文件描述符。那ES与文件描述符有啥恩怨呢，下面就来唠叨唠叨。首先说说文件描述...【详细内容】

2023-12-13　　Search: Elasticsearch 点击:(123)　　评论:(0)　　加入收藏

Mongodb和Elasticsearch计算经纬度哪个性能更好

MongoDB和Elasticsearch都支持计算经纬度距离，但它们的性能表现可能因使用场景和数据规模而异。性能对比1、数据索引和存储 MongoDB使用地理空间索引（2dsphere）来支持经纬度数...【详细内容】

2023-12-11　　Search: Elasticsearch 点击:(213)　　评论:(0)　　加入收藏

SpringBoot整合ElasticSearch详解及相关使用方法

环境：springboot2.4.12 + ElasticSearch7.8.0简介Elasticsearch是一个分布式搜索引擎，底层基于Lucene实现。它屏蔽了Lucene的底层细节，提供了分布式特性，同时对外提供了Restful...【详细内容】

2023-11-10　　Search: Elasticsearch 点击:(201)　　评论:(0)　　加入收藏

Elasticsearch的实际应用与扩展案例

当谈到搜索和分析大量数据时，Elasticsearch 是一个强大且广泛使用的工具。它是一个开源的分布式搜索和分析引擎，被设计用于处理海量数据，并提供实时的搜索、分析和可视化功能。...【详细内容】

2023-10-16　　Search: Elasticsearch 点击:(269)　　评论:(0)　　加入收藏

十分钟掌握Doris，超越Hive、Elasticsearch和PostgreSQL

以前，数据仓库通常由Apache Hive、MySQL、Elasticsearch和PostgreSQL组成。它们支持数据仓库的数据计算和数据存储层：数据计算：Apache Hive作为计算引擎。数据存储：MySQL为Dat...【详细内容】

2023-09-27　　Search: Elasticsearch 点击:(225)　　评论:(0)　　加入收藏

何时使用Elasticsearch，而不是MySQL？

MySQL 和 Elasticsearch 是两种不同的数据管理系统，它们各有优劣，适用于不同的场景。本文将从以下几个方面对它们进行比较和分析：数据模型查询语言索引和搜索分布式和高可...【详细内容】

2023-08-22　　Search: Elasticsearch 点击:(195)　　评论:(0)　　加入收藏

▌简易百科推荐

向量数据库落地实践

本文基于京东内部向量数据库vearch进行实践。Vearch 是对大规模深度学习向量进行高性能相似搜索的弹性分布式系统。详见： https://github.com/vearch/zh_docs/blob/v3.3.X/do...【详细内容】

2024-04-03　　京东云开发者　　　　Tags:向量数据库　点击:(5)　　评论:(0)　　加入收藏

原来 SQL 函数是可以内联的！

介绍在某些情况下，SQL 函数（即指定LANGUAGE SQL）会将其函数体内联到调用它的查询中，而不是直接调用。这可以带来显著的性能提升，因为函数体可以暴露给调用查询的规划器，从而规划器...【详细内容】

2024-04-03　　红石PG　　微信公众号　　Tags:SQL 函数　点击:(4)　　评论:(0)　　加入收藏

如何正确选择NoSQL数据库

译者 | 陈峻审校 | 重楼Allied Market Research最近发布的一份报告指出，业界对于NoSQL数据库的需求正在持续上升。2022年，全球NoSQL市场的销售额已达73亿美元，预计到2032年将达...【详细内容】

2024-03-28　　　　51CTO　　Tags:NoSQL 　点击:(14)　　评论:(0)　　加入收藏

为什么数据库连接池不采用 IO 多路复用？

这是一个非常好的问题。IO多路复用被视为是非常好的性能助力器。但是一般我们在使用DB时，还是经常性采用c3p0，tomcat connection pool等技术来与DB连接，哪怕整个程序已经变成以...【详细内容】

2024-03-27　　dbaplus社群　　　　Tags:数据库连接池　点击:(13)　　评论:(0)　　加入收藏

八个常见的数据可视化错误以及如何避免它们

在当今以数据驱动为主导的世界里，清晰且具有洞察力的数据可视化至关重要。然而，在创建数据可视化时很容易犯错误，这可能导致对数据的错误解读。本文将探讨一些常见的糟糕数据可...【详细内容】

2024-03-26　　DeepHub IMBA　　微信公众号　　Tags:数据可视化　点击:(7)　　评论:(0)　　加入收藏

到底有没有必要分库分表，如何考量的

关于是否需要进行分库分表，可以根据以下考量因素来决定：数据量和负载：如果数据量巨大且负载压力较大，单一库单一表可能无法满足性能需求，考虑分库分表。数据增长：预估数据增长...【详细内容】

2024-03-20　　码上遇见你　　微信公众号　　Tags:分库分表　点击:(15)　　评论:(0)　　加入收藏

在 SQL 中写了 in 和 not in，技术总监说要炒了我……

WHY？IN 和 NOT IN 是比较常用的关键字，为什么要尽量避免呢？1、效率低项目中遇到这么个情况：t1表和 t2表都是150w条数据，600M的样子，都不算大。但是这样一句查询 ↓select *...【详细内容】

2024-03-18　　dbaplus社群　　　　Tags:SQL 　点击:(6)　　评论:(0)　　加入收藏

应对慢SQL的致胜法宝：7大实例剖析+优化原则

大促备战，最大的隐患项之一就是慢SQL，对于服务平稳运行带来的破坏性最大，也是日常工作中经常带来整个应用抖动的最大隐患，在日常开发中如何避免出现慢SQL，出现了慢SQL应该按照什...【详细内容】

2024-03-14　　京东云开发者　　　　Tags:慢SQL 　点击:(5)　　评论:(0)　　加入收藏

过去一年，我看到了数据库领域的十大发展趋势

作者 | 朱洁策划 | 李冬梅过去一年，行业信心跌至冰点2022 年中，红衫的一篇《适应与忍耐》的报告，对公司经营提出了预警，让各个公司保持现金流，重整团队，想办法增加盈利。这篇报告...【详细内容】

2024-03-12　　　　InfoQ　　Tags:数据库　点击:(27)　　评论:(0)　　加入收藏

SQL优化的七个方法，你会哪个？

一、插入数据优化普通插入：在平时我们执行insert语句的时候，可能都是一条一条数据插入进去的，就像下面这样。INSERT INTO `department` VALUES(1, '研发部(RD)', &#39...【详细内容】

2024-03-07　　程序员恰恰　　微信公众号　　Tags:SQL优化　点击:(20)　　评论:(0)　　加入收藏

推荐资讯

整治“暗箱操作” 义	网易再牵暴雪的手，实际
注意！密码、验证码都没	将他人商标设为搜索关
打破刚兑：投资者还能相	拜登坐不住了？罕见对美
黄金狂飙如何影响人民	重新审视2008年全球金