您当前的位置：首页 > 电脑百科 > 数据库 > MYSQL

MySQL两个表的亲密接触-连接查询的原理

时间：2023-04-12 11:30:08 来源：今日头条作者：做好一个程序猿

+ 加入收藏

关系型数据库还有一个重要的概念：Join（连接）。使用Join有好处，也会坏处，只有我们明白了其中的原理，才能更多的使用Join。切记不可以：

业务之上，再复杂的查询也在一个连表语句中完成。

敬而远之，DBA每次上报的慢查询都是连接查询导致的，我再也不用了。

连接简介

连接的本质

我们先来创建两个简单的表，再初始化一些数据

CREATE TABLE t1 (m1 int, n1 varchar(1));

CREATE TABLE t2 (m2 int, n2 varchar(1));

INSERT INTO t1 VALUES(1, 'a'), (2 , 'b') ,(3 ,'c') ;
 
INSERT INTO t2 VALUES(2 , 'b'), (3 , 'c '),(4 , 'd');

从本质上来说，连接就是把各个表的数据都取出来进行匹配，t1 和 t2 的两个表连接起来就是这样的：

连接语法：

select * from t1, t2;

如果乐意，我们可以连接任意数量的表。但是如果不加任何限制条件的话，这个数据量是非常大的，我们现实中使用都是会加上限制条件的。我们来看下下面这条语句

select * from t1,t2 where t1.m1 > 1 and t1.m1 = t2.m2 and t2.n2 = 'c';

这个连接查询的执行过程大致如下

首先确定第一个需要查询表称为驱动表（t1）

步骤1中从驱动表 (t1) 中每获得一条记录，都要去被驱动表 (t2) 中查询匹配。

从上面的步骤，可以看出上述的连表查询我们需要查询一次t1，两次t2。也就是说，两表的连接查询中，需要查询一次驱动表，被驱动表需要查询多次。

这里需要注意下，并不是将所有满足条件的驱动表记录先查询出来放到一个地方，然后再去被驱动表中查询，(如果满足条件的驱动表中的数据非常多，那要需要多大的内存呀。) 所以是每获得一条驱动表记录就去被驱动表中查询。

内连接和外连接

我们再来创建两个表，并插入一些数据

CREATE TABLE student ( 
number INT NOT NULL Auto_increment comment'学号',
name varchar (5) COMMENT '姓名',
major varchar (30) comment '专业',
PRIMARY KEY (number));

CREATE TABLE score ( 
number INT  comment'学号',
subject varchar (30) COMMENT '科目',
score TINYINT  comment '成绩',
PRIMARY KEY (number, subject));


INSERT INTO `student` (`number`, `name`, `major`) 
VALUES ('20230301', '小赵', '计算机科学');
INSERT INTO `student` (`number`, `name`, `major`) 
VALUES ('20230302', '小钱', '通信');
INSERT INTO `student` (`number`, `name`, `major`) 
VALUES ('20230303', '小孙', '土木工程');

INSERT INTO `score` (`number`, `subject`, `score`) 
VALUES ('20230301', '高等数学', '60');
INSERT INTO `score` (`number`, `subject`, `score`) 
VALUES ('20230301', '英语', '70');
INSERT INTO `score` (`number`, `subject`, `score`) 
VALUES ('20230302', '高等数学', '80');
INSERT INTO `score` (`number`, `subject`, `score`) 
VALUES ('20230302', '英语', '90');

如果我们想把所有的学生的成绩都查出来，只需要这样执行：

select s1.number, s1.name, s1.major, s2.subject, s2.score 
  from student as s1 , score as s2 
where s1.number = s2.number;

有个问题就是小孙因为某些原因没有参加考试，所以在结果表中没有对应的成绩记录。如果老师想查看所有学生的考试成绩，即使是缺考的学生他们的成绩也应该展示出来。

为了解决这个问题，就有了内连接和外连接的概念：

对于内连接的两个表，若驱动表中的记录在被驱动表找不到匹配的记录，则该记录不会加入到最后的结果集。前面提到的连接都是内连接。
对于外连接的两个表，时驱动表中的记录在被驱动表中没有匹配的记录，也仍然需要加入到结果集。

MySQL 中，根据选取的驱动表的不同，外连接可以细分为

左外连接选取左侧的表为驱动表。
右外连接·选取右侧的表为驱动表。

当我们使用外连接的时候有时候我们也不想把驱动表的全部记录都加入到最后的结果集中，这个时候我们就要使用过滤条件了。

• WHERE 子句中的过滤条件：不论是内连接还是外连接凡是不符合 WHERE 子句中过滤条件的记录都不会被加入到最后的结果集。

• ON 子句中的过滤条件：对于外连接的驱动表中的记录来说，如果无法在被驱动表中找到匹配 ON 子句中过滤条件的记录那么该驱动表记录仍然会被加入到结果集中，对应的被驱动表记录的各个字段使用NULL 值填充。

所以上述的需求我们可以左查询这样来做：

select s1.number, s1.name, s1.major, s2.subject, s2.score 
  from student as s1 left join score as s2 
on s1.number = s2.number;

语法：

#左连接
select * from t1 left join t2 on '连接条件' where '普通过滤条件'
#右连接
select * from t1 right join t2 on '连接条件' where '普通过滤条件'

内连接的另一种写法，也是常用写法

select s1.number, s1.name, s1.major, s2.subject, s2.score 
  from student as s1 inner join score as s2 
where s1.number = s2.number;

语法：

select * from t1 inner join t2 on '连接条件' where '过滤条件'

连接原理

上述说了这么多，知识简单回顾一下连接，左连接，右连接这些概念。接下来我们重点说一下 MySQL 采用了什么样的算法来进行表与表之前的连接。

Nested-Loop Join （嵌套循环连接) NLJ

前面我们已经介绍过了执行连接查询的大致步骤了，我们再来简单回顾一下

步骤1：选取驱动表，使用相关的过滤条件，选取代价最低的单表访问方法来执行访问。
步骤2：对步骤1中查询到的驱动表结果中的每一条记录，都分别在被驱动表中匹配符合条件的记录。
如果有三个表，那么步骤2中得到的结果集就像是新的驱动表，然后第三个表就成为了驱动表，重复上述的过程。

整个过程就像是一个嵌套循环，所以这种连接方式称为嵌套循环连接，这是最简单也是最笨的一种连接查询算法。大致处理过程如下：

for each row in t1 matching range {
  for each row in t2 matching reference key {
    for each row in t3 {
      if row satisfies join conditions, send to client
    }
  }
}

需要注意的是对于获套循环连接算法法来说，每当我们从驱动表中得到了一条记录时，就根据这条记录立时到被驱动表中查询一次，如果得到了匹配的记录，就把组合后的记录发送给客户端，然后再到驱动表中获取下一条记录。这个过程将重复进行。

有什么方式可以优化吗

使用索引加快连接速度

这个是我们比较熟悉的方式，也是相对来说最有用的方式，在被驱动表上创建合适的索引，只返回必要的字段等都可以起到一些优化的作用。

Block Nested-Loop Join（块嵌套循环连接）BNL

每次访问被驱动表，其表中的记录都会被加载到内存中，然后再从驱动表中取出一条与其匹配，匹配结束后清楚内存，然后再从驱动表中加载一条记录，然后把被驱动表的记录加载到内存匹配，如果这个被驱动表中的数据特别多而且不能使用索引进行访问，那就相当于要从磁盘上读这个表好多次，这个IO的代价就非常大了。所以我们得想办法，尽量减少被驱动表的访问次数，于是就出现了下面这种方式。

不再是逐条获取驱动表的数据，而是一块一块的获取，引入join buffer 缓冲区，将驱动表join 相关的部分数据列（大小受join buffer的限制）缓存到 join buffer中，然后开始扫描被驱动表，被驱动表的每一条记录一次性和join buffer中所有的驱动表记录进行匹配（内存中操作）。将简单嵌套循环中的多次比较合并成一次，降低了备驱动表的访问频率。

这里缓存的不只是关联表的列，select后面的列也会缓存起来。所以查询的时候尽量减少不必要的字段，可以让join buffer中可以存放更多的列。

join_buffer_size的最大值在32为系统中可以申请4G，在64为操作系统中可以申请大于4G的空间。

MySQL对于被驱动表的关联字段没索引的关联查询，一般都会使用 BNL 算法。如果有索引一般选择 NLJ 算法，有索引的情况下 NLJ 算法比 BNL算法性能更高。

关联查询优化总结

超过三个表禁止 join。【阿里巴巴JAVA开发手册】
需要 join 的字段，数据类型必须绝对一致；【阿里巴巴JAVA开发手册】
多表关联查询时，保证被关联的字段需要有索引，尽量选择NLJ算法。【阿里巴巴JAVA开发手册】
小表驱动大表，写多表连接sql时如果明确知道哪张表是小表可以用strAIght_join写法固定连接驱动方式，省去mysql优化器自己判断的时间

Tags：MySQL 点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,不构成投资建议。投资者据此操作，风险自担。如有任何标注错误或版权侵犯请与我们联系，我们将及时更正、删除。

▌相关推荐

MySQL 核心模块揭秘

server 层会创建一个 SAVEPOINT 对象，用于存放 savepoint 信息。binlog 会把 binlog offset 写入 server 层为它分配的一块 8 字节的内存里。 InnoDB 会维护自己的 savepoint...【详细内容】

2024-04-03　　Search: MySQL 点击:(6)　　评论:(0)　　加入收藏

MySQL 核心模块揭秘，你看明白了吗？

为了提升分配 undo 段的效率，事务提交过程中，InnoDB 会缓存一些 undo 段。只要同时满足两个条件，insert undo 段或 update undo 段就能被缓存。1. 关于缓存 undo 段为了提升分...【详细内容】

2024-03-27　　Search: MySQL 点击:(11)　　评论:(0)　　加入收藏

MySQL：BUG导致DDL语句无谓的索引重建

对于5.7.23之前的版本在评估类似DDL操作的时候需要谨慎，可能评估为瞬间操作，但是实际上线的时候跑了很久，这个就容易导致超过维护窗口，甚至更大的故障。一、问题模拟使用5.7.22...【详细内容】

2024-03-26　　Search: MySQL 点击:(10)　　评论:(0)　　加入收藏

从 MySQL 到 ByteHouse，抖音精准推荐存储架构重构解读

ByteHouse是一款OLAP引擎，具备查询效率高的特点，在硬件需求上相对较低，且具有良好的水平扩展性，如果数据量进一步增长，可以通过增加服务器数量来提升处理能力。本文将从兴趣圈层...【详细内容】

2024-03-22　　Search: MySQL 点击:(24)　　评论:(0)　　加入收藏

MySQL自增主键一定是连续的吗？

测试环境：MySQL版本：8.0数据库表：T （主键id，唯一索引c，普通字段d）如果你的业务设计依赖于自增主键的连续性，这个设计假设自增主键是连续的。但实际上，这样的假设是错的，因为自增主键不...【详细内容】

2024-03-10　　Search: MySQL 点击:(6)　　评论:(0)　　加入收藏

准线上事故之MySQL优化器索引选错

1 背景最近组里来了许多新的小伙伴，大家在一起聊聊技术，有小兄弟提到了MySQL的优化器的内部策略，想起了之前在公司出现的一个线上问题，今天借着这个机会，在这里分享下过程和结论...【详细内容】

2024-03-07　　Search: MySQL 点击:(28)　　评论:(0)　　加入收藏

MySQL数据恢复，你会吗？

今天分享一下binlog2sql，它是一款比较常用的数据恢复工具，可以通过它从MySQL binlog解析出你要的SQL，并根据不同选项，可以得到原始SQL、回滚SQL、去除主键的INSERT SQL等。主要...【详细内容】

2024-02-22　　Search: MySQL 点击:(46)　　评论:(0)　　加入收藏

如何在MySQL中实现数据的版本管理和回滚操作？

实现数据的版本管理和回滚操作在MySQL中可以通过以下几种方式实现，包括使用事务、备份恢复、日志和版本控制工具等。下面将详细介绍这些方法。1.使用事务：MySQL支持事务操作，可...【详细内容】

2024-02-20　　Search: MySQL 点击:(53)　　评论:(0)　　加入收藏

为什么高性能场景选用Postgres SQL 而不是 MySQL

一、数据库简介 TLDR;1.1 MySQL MySQL声称自己是最流行的开源数据库，它属于最流行的RDBMS (Relational Database Management System，关系数据库管理系统)应用软件之一。LAMP...【详细内容】

2024-02-19　　Search: MySQL 点击:(38)　　评论:(0)　　加入收藏

MySQL数据库如何生成分组排序的序号

经常进行数据分析的小伙伴经常会需要生成序号或进行数据分组排序并生成序号。在MySQL8.0中可以使用窗口函数来实现，可以参考历史文章有了这些函数，统计分析事半功倍进行了解。...【详细内容】

2024-01-30　　Search: MySQL 点击:(54)　　评论:(0)　　加入收藏

▌简易百科推荐

MySQL 核心模块揭秘

2024-04-03　　爱可生开源社区　　　　Tags:MySQL 　点击:(6)　　评论:(0)　　加入收藏

MySQL 核心模块揭秘，你看明白了吗？

2024-03-27　　爱可生开源社区　　微信公众号　　Tags:MySQL 　点击:(11)　　评论:(0)　　加入收藏

MySQL：BUG导致DDL语句无谓的索引重建

2024-03-26　　MySQL学习　　微信公众号　　Tags:MySQL 　点击:(10)　　评论:(0)　　加入收藏

从 MySQL 到 ByteHouse，抖音精准推荐存储架构重构解读

2024-03-22　　字节跳动技术团队　　　　Tags:ByteHouse 　点击:(24)　　评论:(0)　　加入收藏

MySQL自增主键一定是连续的吗？

2024-03-10　　　　dbaplus社群　　Tags:MySQL 　点击:(6)　　评论:(0)　　加入收藏

准线上事故之MySQL优化器索引选错

2024-03-07　　转转技术　　微信公众号　　Tags:MySQL 　点击:(28)　　评论:(0)　　加入收藏

MySQL数据恢复，你会吗？

2024-02-22　　数据库干货铺　　微信公众号　　Tags:MySQL 　点击:(46)　　评论:(0)　　加入收藏

如何在MySQL中实现数据的版本管理和回滚操作？

2024-02-20　　编程技术汇　　　　Tags:MySQL 　点击:(53)　　评论:(0)　　加入收藏

MySQL数据库如何生成分组排序的序号

2024-01-30　　数据库干货铺　　微信公众号　　Tags:MySQL 　点击:(54)　　评论:(0)　　加入收藏

mysql索引失效的场景

MySQL中索引失效是指数据库查询时无法有效利用索引，这可能导致查询性能显著下降。以下是一些常见的MySQL索引失效的场景：1.使用非前导列进行查询：假设有一个复合索引 (A, B)。...【详细内容】

2024-01-15　　小王爱编程　　今日头条　　Tags:mysql索引　点击:(85)　　评论:(0)　　加入收藏

推荐资讯

16个Redis常见使用场	一篇文章教会你使用Py
聊聊Rust里面的数据类	C++中的外部模板及其
一篇文章带你了解Pyth	网络安全行业的春天何
Linux获取Redis 性能	Redis与缓存一致性问