Mysql百万量级数据高效导入Redis

时间：2020-03-16 13:55:09 来源：作者：

前言

随着系统的运行，数据量变得越来越大，单纯的将数据存储在MySQL中，已然不能满足查询要求了，此时我们引入redis作为查询的缓存层，将业务中的热数据保存到Redis，扩展传统关系型数据库的服务能力，用户通过应用直接从Redis中快速获取常用数据，或者在交互式应用中使用Redis保存活跃用户的会话，都可以极大地降低后端关系型数据库的负载，提升用户体验。

传统命令的缺点

使用传统的redis client命令在大数据量的导入场景下存在如下缺陷：

由于redis是单线程模型，虽然避免了多线程下线程切换所耗费的时间，单一顺序的执行命令也很快，但是在大批量数据导入的场景下，发送命令所花费的时间和接收服务器响应结果耗费的时间就会被放大。

假如需要导入100万条数据，那光是命令执行时间，就需要花费100万*（t1 + t2）。

除了逐条命令发送，当然redis设计肯定也会考虑这个问题，所以出现了pipelining管道模式。

但是pipelining在命令行中是没有的，使得我们又需要编写新的处理代码，来接收批量的响应。但是只有很少很少的客户端代码支持，比如php-redis的扩展就不支持异步。

pipelining管道模式，其实就是减少了TCP连接的交互时间，当一批命令执行完毕后，一次性发送结果。

其实现原理是采用FIFO(先进先出)的队列来保证数据的顺序性。

只有一小部分客户端支持非阻塞I/O，并不是所有的客户端都能够以一种有效的方式解析应答，以最大化吞吐量。

由于这些原因，将庞大数据导入到Redis的首选方法是生成一个包含Redis协议数据格式，批量的发送过去。

数据导入Redis热身

采用nc命令导入数据

nc是netcat的简写，nc的作用有：

1、实现任意TCP/UDP端口的侦听，增加-l参数后，nc可以作为server以TCP或UDP方式侦听指定端口

2、端口的扫描，nc可以作为client发起TCP或UDP连接

3、机器之间传输文件

4、机器之间网络测速

采用pipe模式导入数据

然而，使用nc监听并不是一个非常可靠的方式来执行大规模的数据导入，因为netcat并不真正知道何时传输了所有数据，也无法检查错误。在2.6或更高版本的Redis中，Redis -cli脚本支持一种称为pipe管道模式的新模式，这种模式是为了执行大规模插入而设计的。使用管道模式的命令运行如下:

由上图，可以看到pipe命令的返回结果，txt文件中有多少行命令，返回的replies数就是多少， errors表示其中执行错误的命令条数。

redis协议学习

协议的格式为：

*<参数数量> rn

$<参数 1的字节数量> rn

<参数 1的数据> rn

...

$<参数 N 的字节数量> rn

<参数 N 的数据> rn

比如：插入一条hash类型的数据。

HSET id book1 book_deion1

根据Redis协议，总共有4个部分，所以开头为*4，其余内容解释如下：

注意一下：HSET命令本身也作为协议的其中一个参数来发送。

构造出来的协议数据结构：

* 4rn$ 4rnHSETrn$ 2rnidrn$ 5rnbook1rn$ 17rnbook_deion1rn

格式化一下：

* 4rn

$ 4rn

HSETrn

$ 2rn

idvvvvrn

$ 5rn

book1rn

$ 17rn

book_deion1rn

RESP协议 bulk

Redis客户机使用一种称为RESP (Redis序列化协议)的协议与Redis服务器通信。

redis-cli pipe模式需要和nc命令一样快，并且解决了nc命令不知道何时命令结束的问题。

在发送数据的同时，它同样会去读取响应，尝试去解析。

一旦输入流中没有读取到更多的数据之后，它就会发送一个特殊的20比特的echo命令，标识最后一个命令已经发送完毕如果在响应结果中匹配到这个相同数据后，说明本次批量发送是成功的。

使用这个技巧，我们不需要解析发送给服务器的协议来了解我们发送了多少命令，只需要解析应答即可。

在解析应答时，redis会对解析的应答进行一个计数，在最后能够告诉用户大量插入会话向服务器传输的命令的数量。也就是上面我们使用pipe模式实际操作的响应结果。

将输入数据源换成mysql

上面的例子中，我们以一个txt文本为输入数据源，使用了pipe模式导入数据。

基于上述协议的学习和理解，我们只需要将mysql中的数据按照既定的协议通过pipe模式导入Redis即可。

实际案例--从Mysql导入百万级数据到Redis

首先造数据

由于环境限制，所以这里没有用真实数据来实现导入，那么我们就先使用一个存储过程来造一百万条数据吧。使用存储过程如下：

DELIMITER $$

USE `cb_mon`$$

DROP PROCEDURE IF EXISTS `test_insert`$$

CREATE DEFINER=`root`@`%` PROCEDURE `test_insert`

BEGIN

DECLARE i INT DEFAULT 1;

WHILE i<= 1000000

INSERT INTO t_book(id,number,NAME,descrition)

VALUES(i, CONCAT( "00000",i) , CONCAT( 'book',i)

, CONCAT( 'book_deion',i) ) ;

SET i=i+ 1;

END WHILE ;

COMMIT;

END$$

DELIMITER ;

调用存储过程

CALL test_insert;

查看表数据：

按协议构造查询语句

按照上述redis协议，我们使用如下sql来构造协议数据：

SELECT

CONCAT(

"*4rn",

"$",

LENGTH(redis_cmd) ,

"rn",

redis_cmd,

"rn",

"$",

LENGTH(redis_key),

"rn",

redis_key,

"rn",

"$",

LENGTH(hkey),

"rn",

hkey,

"rn",

"$",

LENGTH(hval),

"rn",

hval,

"r"

)

FROM

(SELECT

"HSET"AS redis_cmd,

id AS redis_key,

NAME AS hkey,

descrition AS hval

FROM

cb_mon.t_book

) AS t limit 1000000

并将内容保存至redis.sql 文件中。

编写脚本使用pipe模式导入redis

编写shell脚本。由于我在主机上是通过Docker安装的redis和mysql，以下脚本供参考：

#!/bin/bash

starttime=`date + '%Y-%m-%d %H:%M:%S'`

docker exec -i 899fe01d4dbc mysql -- default-character-set=utf8

--skip-column-names --raw < ./redis.sql

| docker exec -i 4c90ef506acd redis-cli --pipe

endtime=`date + '%Y-%m-%d %H:%M:%S'`

start_seconds=$(date --date= "$starttime"+%s);

end_seconds=$(date --date= "$endtime"+%s);

echo "脚本执行耗时："$((end_seconds-start_seconds)) "s"

执行截图：

可以看到百万级的数据导入redis，只花费了7秒，效率非常高。

注意事项

如果mysql表特别大，可以考虑分批导入，或者将表拆分，否则在导入过程中可能会发生：

lost connection to mysql server during query

由于max_allowed_packed和超时时间限制，查询数据的过程中，可能会造成连接断开，所以在数据表的数据量特别大的时候，需要分页或者将表拆分导入。

总结

本篇文章主要探讨了，Mysql百万级数据量级下，如何高效的迁移到Redis中去，逐步实现目标的过程中，总结了如下几点：

1、redis单线程执行命令，避免了线程切换所消耗的时间，但是在超大数据量级下，其发送、响应接收的时延不可忽视。

2、网络nc命令的应用场景，及在数据导入时存在的缺点。

3、redis RESP协议的理解和应用。

4、百万量级Mysql数据的Redis快速导入案例。

Tags：导入Redis 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

▌简易百科推荐

同事乱用 Redis 卡爆，我真是醉了...

来源： my.oschina.net/xiaomu0082/blog/2990388首先说下问题现象：内网sandbox环境API持续1周出现应用卡死，所有api无响应现象刚开始当测试抱怨环境响应慢的时候，我们重启一下应...【详细内容】

2021-12-08　　Java识堂　　　　Tags:Redis 　点击:(18)　　评论:(0)　　加入收藏

使用Redis时要避免的5个错误

我不知道为什么你会选择对特定数量的“错误”（或警告）如此具体。听起来您正在寻找将要发布到 Yahoo! 的某些文章的内容。 Insider (N Foos to Blah for the BlahBlah)。那说：...【详细内容】

2021-12-07　　富集云科技有限公司　　　　Tags:Redis 　点击:(14)　　评论:(0)　　加入收藏

redis主从同步参数repl_backlog_size测算

目录一、背景二、步骤 0.理论支持 1、获取数据 2、结果 3、分析数据并评估大小三、关于repl-backlog-size 一、背景 repl-backlog-size控制这个环形缓冲区. 主从断...【详细内容】

2021-11-05　　弈秋的美好生活　　　　Tags:redis 　点击:(41)　　评论:(0)　　加入收藏

Redis性能命令

Redis 性能测试是通过同时执行多个命令实现的。1，Redis-benchmarkRedis性能命令：redis性能命令格式: redis-benchmark [option] [option value] redis 性能测试工具可选参数如...【详细内容】

2021-11-02　　川石信息　　　　Tags:Redis 　点击:(41)　　评论:(0)　　加入收藏

华为架构师整理Redis数据结构的大厂最佳实践

1 概述数据结构和内部编码无传统关系型数据库的 Table 模型schema 所对应的db仅以编号区分。同一 db 内，key 作为顶层模型，它的值是扁平化的。即 db 就是key的命名空间。 key...【详细内容】

2021-11-01　　JavaEdge　　　　Tags:Redis 　点击:(28)　　评论:(0)　　加入收藏

极简Redis使用

普通java中使用引用Java redis 驱动，即可连接：import redis.clients.jedis.Jedis; public class RedisTestJava { public static void main(String[] args) { //连...【详细内容】

2021-10-13　　faesuite　　　　Tags:Redis 　点击:(34)　　评论:(0)　　加入收藏

Redis常用的数据结构

Redis常用的数据结构有 string list set zset hashstringstring 是 Redis 的基本的数据类型，一个 key 对应一个 value。string 类型是二进制安全的，Redis的string可以包含任...【详细内容】

2021-10-12　　语霖　　　　Tags:Redis 　点击:(36)　　评论:(0)　　加入收藏

Redis核心原理与实践--列表实现原理之ziplist

列表类型可以存储一组按插入顺序排序的字符串，它非常灵活，支持在两端插入、弹出数据，可以充当栈和队列的角色。> LPUSH fruit apple(integer) 1> RPUSH fruit banana(integer)...【详细内容】

2021-09-17　　深夜敲代码　　　　Tags:Redis 　点击:(54)　　评论:(0)　　加入收藏

超详细Redis内容整理

Redis持久化意义是做灾难恢复，数据恢复，也可以归类到高可用的一个环节里面去，比如你的redis整个挂了，然后redis就不可用了，你要做的事情是让redis变得可用，尽快变得可用大量的请...【详细内容】

2021-08-12　　小李说IT　　　　Tags:Redis 　点击:(77)　　评论:(0)　　加入收藏

缓存穿透解决方案

当查询Redis中没有的数据时，该查询会下沉到数据库层，同时数据库层也没有该数据，当这种情况大量出现或被恶意攻击时，接口的访问全部透过Redis访问数据库，而数据库中也没有这些数据...【详细内容】

2021-07-30　　随便t　　　　Tags:缓存穿透　点击:(91)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游

无相关信息