MySQL是主流的开源关系型数据库,提供高性能的数据存储服务。我们在做后端开发时,性能瓶颈往往不是应用本身,而是数据库层面。所以掌握Mysql的一些底层原理有助于我们更好地理解Mysql,对Mysql进行性能调优,从而开发高性能的后端服务。
Mysql的逻辑架构
Mysql的逻辑架构如下图:
最上层是处理客户端过来的连接的。主要做连接处理、授权认证、安全等。Mysql在这一层维护了一个线程池,用于处理来自客户端的连接。Mysql可以使用用户名密码认证,也可以使用SSL基于X.509证书认证。
第二层由三部分组成:查询缓存、解析器、优化器。解析器用来解析SQL语句,优化器会对解析之后的语句进行优化。在解析查询前,服务器会先检查查询缓存,如果能在其中找到对应的查询结果,则无需再进行查询解析、优化等过程,直接返回查询结果。存储过程、触发器、视图等都在这一层实现。
第三层是存储引擎,存储引擎负责在MySQL中存储数据、提取数据、开启一个事务等等。存储引擎通过API与上层进行通信,这些API屏蔽了不同存储引擎之间的差异,使得这些差异对上层查询过程透明。存储引擎不会去解析SQL。
Mysql最常用的存储引擎是InnoDB
Mysql的并发控制
如果多个线程同时操作数据,就有可能引发并发控制的问题。本文接下来将介绍Mysql是如何控制并发读写的。
读写锁
如果多个线程都只是读数据,其实可以一起读,不会互相影响,这个时候应该使用“读锁”,也称为共享锁。获取读锁的线程之间互相不会阻塞,可以同时读取一个资源。
如果有一个线程需要写数据,则应该使用“写锁”,也成为排它锁。写锁会阻塞其它的写锁和读锁,直至写操作完成。
锁粒度
首先明确一个概念:在给定的资源上,需要加锁的数据越少,系统能够承载的并发量就越高。但加锁也是需要消耗资源的,如果系统花费大量的时间来管理锁,而不是存取数据,那么系统的性能可能会因此受影响。
所以一个好的“锁策略”就是要在锁的开销和数据的安全性之间寻求平衡,Mysql支持多个存储引擎的架构,每种存储引擎都可以实现自己的锁策略和锁粒度。
表锁和行锁
表锁顾名思义就是锁住整张表。表锁开销比较小。对表加写锁后,其它用户对这张表的所有读写操作都会被阻塞。在Mysql中,尽管存储引擎可以提供自己的锁,但Mysql有时候也会使用表锁,比如 ALTER TABLE 之类的语句。
写锁比读锁有更高的优先级,因此一个写锁请求可能会被插入到读锁队列的前面。
行级锁即锁住整行,可以最大程度地支持并发处理,但加解锁的开销也会比较大。行级锁只在储存引擎层实现,所有的存储引擎都以自己的方式实现了行级锁。
MVCC
MVCC即“多版本并发控制”,可以认为MVCC是行级锁的一个变种,但是它在很多情况下避免了加锁操作,因此开销更低。
主流的关系型数据库都实现了MVCC,但实现机制各有不同。实际上MVCC也没有一个统一的标准。但大都实现了非阻塞的读操作,写操作也只是锁定必要的行。
MVCC保证的是每个事务里面在执行期间看到的数据都是一致的。但不同的事务由于开始的时间不同,所以可能对同一张表,同一时刻看到的数据是不一样的。
在Mysql的InnoDB引擎,是通过给每行记录后面保存两个隐藏的列来实现的。一个是保存行的创建时间,另一个保存了行的过期时间(或删除时间)。
实际上存储的并不是实际的一个时间戳,而是“系统版本号”。
每次开启一个事务,系统版本号都会递增。事务开始时,系统版本号会作为事务的版本号,用来和查询到的行的版本号进行比较。下面分别介绍常见的CRUD操作中版本号是怎么工作的:
INSERT
保存当前系统版本号作为行版本号
DELETE
保存当前的系统版本号到这行数据的“删除版本”。
UPDATE
插入一行新纪录,保存当前系统版本号作为行版本号,同时保存当前系统版本号到原来的行的“删除版本”。
SELECT
MVCC只在REPEATABLE READ和READ COMMITTED两个隔离级别下工作,其它两个隔离级别不能工作。因为READ UNCOMMITTED总是读取最新的数据防,而不是符合当前事务版本的数据行。而SERIALIZABLE则会对所有读取的行都加锁。