不知道读者有没有遇到过这么一种异常情况,在使用MySQL时,仅仅是一次很简单的查询响应时间居然需要上百毫秒甚至1秒以上,到底是什么原因导致的这种非常异常的情况?这节课我们一起探究一下。
本篇文章使用的SQL数据如下所示。
mysql> CREATE TABLE `t` (
`id` int(11) NOT NULL,
`c` int(11) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=InnoDB;
delimiter ;;
create procedure idata()
begin
declare i int;
set i=1;
while(i<=100000) do
insert into t values(i,i);
set i=i+1;
end while;
end;;
delimiter ;
call idata();
假设存在如下这种场景,根据主键id查询如果出现长时间不返回,比如如下的语句:
select * from t where id = 1;
像这种根据主键查询还会长时间等待的语句,一般的猜测是有可能被锁。一般是执行show processlist命令查看当前的语句状态。
使用show processlist命令查看WAIting for table metadata lock的示意图。出现这个状态原因是:现在正在有一个线程正在表t上请求或者持有MDL写锁,把select语句阻塞。
在MySQL5.6版本可以用锁的章节进行复现;
在MySQL8.0版本可以使用三个连接client,一个执行select sleep(1) from t,一个执行alter,一个执行select,可以复现。
在MySQL5.7.30版本:
sessionA:begin; select c from t order by rand() limit 3;
sessionB: alter table t add f int;[blocked]
sessionC: select c from t order by rand() limit 3;[blocked]
文中的实例是在MySQL5.7复现,为:
sessionA通过锁表获取MDL写锁,写锁具有排他性,因此sessionB虽然是执行读仅需要MDL读锁,也会被阻塞。
这类问题的处理方式,就是找到谁持有 MDL 写锁,然后把它 kill 掉。
但是,由于在 show processlist 的结果里面,session A 的 Command 列是“Sleep”,导致查找起来很不方便。不过有了 performance_schema 和 sys 系统库以后,就方便多了。
通过查询 sys.schema_table_lock_waits 这张表,我们就可以直接找出造成阻塞的 process id,把这个连接用 kill 命令断开即可。
如果是执行如下语句出现卡顿:
mysql> select * from information_schema.processlist where id=1;
注意其中的STATE字段,显示为:Waiting for table flush,也就是等待刷盘。
即,此时数据不在内存中,会从磁盘读取到数据后加载到buffer pool中,如果此时buffer pool已经被占满,则会使用LRU淘汰掉旧数据,如果要淘汰的数据时脏页,就会触发flush,造成卡顿。
flush表有两种格式:
/**
指定表t,代表只关闭表t
*/
flush tables t with read lock;
/**
没有指定表,代表只关闭MySQL打开的所有表
*/
flush tables with read lock;
关闭所有已打开的表对象,同时将查询缓存中的结果清空。就是说Flush tables的一个效果就是会等待所有正在运行的SQL请求结束。 因为,SQL语句在执行前,都会打开相应的表对象,如select * from t1语句,会找到t1表的frm文件,并打开表内存对象。为了控制表对象使用的内存空间和其他资源,MySQL会隐式(后台表对象管理线程)或显式(flush tables等)来关闭已打开但并没有使用的表对象。 然而,正在使用的表对象是不能关闭的(如SQL请求仍在运行),因此,Flush Tables操作会被正在运行的SQL请求阻塞。
根据show processlist查询的id,将select sleep(1) from t的进行先结束,然后flush table t的命令执行完,sessionC就会执行。
还有第三种情况就是我们最为熟悉的锁。假设执行语句如下,在查询时开启共享锁:
mysql> select * from t where id=1 lock in share mode;
在语句执行的加锁会增加锁冲突的几率,从而导致语句之间的相互等待锁释放。
此时,由于sessionA启动了事务,占用了写锁,阻塞了sessionB的共享锁的获取。
在MySQL5.7可以使用sys.innodb_lock_waits表查询到占用写锁的线程:
mysql> select * from t sys.innodb_lock_waits where
locked_table='`test`.`t`'G
图片
可以看到,这个信息很全,4 号线程是造成堵塞的罪魁祸首。而干掉这个罪魁祸首的方式,就是 KILL QUERY 4 或 KILL 4。不过,这里不应该显示“KILL QUERY 4”。
这个命令表示停止 4 号线程当前正在执行的语句,而这个方法其实是没有用的。因为占有行锁的是 update 语句,这个语句已经是之前执行完成了的,现在执行 KILL QUERY,无法让这个事务去掉 id=1 上的行锁。
实际上,KILL 4 才有效,也就是说直接断开这个连接。这里隐含的一个逻辑就是,连接被断开的时候,会自动回滚这个连接里面正在执行的线程,也就释放了 id=1 上的行锁。
我们知道MySQL的使用规范中,长事务是严禁使用的,或者说不建议使用的。那么长事务是否也会导致慢查询呢?
在如下情况下,可能会出现查询慢的情况,如图所示:
图片
第一条sql查询的是当前事务版本时,id = 1 时的值,但是第二条sql 查询可以得知当前值得最新版本的值为1000001,所以在查询数据时需要进行记录版本的回滚,拿到自己事务可见的记录的版本。所以如果当前事务比较老并且当前这个数据存在大量的版本,那么就对该记录进行大量的回滚操作,消费个更多的时间。
此时可以通过如下场景复现:
图片
你看到了,session A 先用 start transaction with consistent snapshot 命令启动了一个事务,之后 session B 才开始执行 update 语句。
session B 执行完 100 万次 update 语句后,id=1 这一行处于什么状态呢?
图片
session B 更新完 100 万次,生成了 100 万个回滚日志 (undo log)。
带 lock in share mode 的 SQL 语句,是当前读(读最新版本的数据),因此会直接读到 1000001 这个结果,所以速度很快;而 select * from t where id=1 这个语句,是一致性读,因此需要从 1000001 开始,依次执行 undo log,执行了 100 万次回滚以后,才将 1 这个结果返回。
注意,undo log 里记录的其实是“把 2 改成 1”,“把 3 改成 2”这样的操作逻辑,画成减 1 的目的是方便你看图。