恕我直言，我怀疑你并不会“分库分表”

时间：2020-06-12 10:38:21 来源：作者：

随着互联网的迅速发展，会导致产生海量的数据，在数据量还比较小的时候，传统的处理方式是将数据存储在关系或者非关系型数据库中，但是随着数据量逐渐增加，单个数据库的表已经很难容纳所有数据，所以业界出现了分库分表的概念。利用分为知之的思想，完美的将数据进行了拆分，但是也带来了许多比较棘手的问题，比如引入了分布式事务、扩容等。

数据库使用演变史

我们在应用中使用数据库主要经历以下三个阶段

单库单表，应用初始阶段，此阶段由于数据量小于数据库承受阈值，对应用性能上基本没有影响。
单库分表，由于数据库中的某张表数据库量过大，对应用的性能有了一定的影响，比如查询等，对某个表会分为table_1,table_2,table_N,将一张表拆分N张小表。注意此阶段磁盘容量充足。但是更多的是使用的数据库的分区，分区原理和分表原理很相似，比如MySQL hash的分区

CREATE TABLE `test_user_hash` (
  `user_id` bigint(19) NOT NULL,
  `user_name` varchar(50) NOT NULL,
  `ext_int` int(2) NOT NULL,
  `ts` bigint(19) NOT NULL,
  PRIMARY KEY (`user_id`,`ext_int`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;
//Mysql 分区
ALTER TABLE `test_user_hash` PARTITION BY HASH(ext_int) PARTITIONS 3 ;
复制代码

mysql数据库中存储形式，由于上述是按3hash求余，所以会分三个存储文件

分库分表，上述两种都无法解决时，出现分库分表方案，即将单数据库数据分散在多个数据库中。

什么情况下需要分库分表

原则上能不分库尽量不分库，无法避免时或者已经有趋势显示需要分库分表，则使用分库分表。

数据库的吞吐量达到瓶颈，需要扩多个数据库实例来提高；
数据表的数据达到一定的量级，对应用查询等性能有了明显的影响，可以通过分库分表来提升性能，有资料显示Mysql数据库单表数据量超过5000w后对查询性能有影响
为了避免后期复杂的扩容，提前根据数据增长的趋势预估N年后的数据量 count，count / 单库容量 =所需数据库实例，属于提前规划，防范于未然。

常见拆分方案

常见拆分方案有两种：垂直拆分和水平拆分，分库分表则是一种对数据库拆分的常见解决方案。

垂直拆分

垂直拆分是根据业务特点，将某些有关系的表集中存储在的某个DB中，并且这些表的数据量一般不会过大。比如电商系统中有用户模块、订单模块

水平拆分

每个db中存在相同的表结构，根据一定的规则将数据分散在多个DB中

分库分表实现方案

主要有以下三种实现方案

客户端分片
代理实现分片
分布式数据库

客户端分片

客户端分片一般有两种实现方式，一种是应用层直接实现，应用层内包含分片逻辑以及分片算法等，与业务代码紧耦合

应用层实现了所有逻辑，业务人员需要参与。

另外一种是实现标准的JDBC协议，对应用提供包装过的JDBC，对应用使用无感，实现逻辑作为jar，嵌入在应用中，应用可以灵活的切换

这种方式是实现标准的JDBC接口，对应用使用原生JDBC无影响，二者遵循统一规范，相比于第一种方式好处是与业务代码解耦。提高灵活性。

代理分片

代理方式实现的方式是在应用和数据库中间增加代理层，独立部署，代理充当数据的角色，对应用来说使用代理就等价于数据库，原则上使用代理与直接使用数据库是无区别，但是代理毕竟不是真实的数据库，代理层只是解决如何充分的利用数据库资源，代理层实现了所有分库分表逻辑，包括分片规则等，业务人员无需关注，可以将更多的时间投入到业务实现逻辑中。

一般会在代理层外添加一层负载。

这种方式可以让业务人员更专注于业务，但是复杂度相比第一种要高很多，增加了通讯链路，涉及到协议转换，所以会对性能相比于第一种方案有明显的损耗，同时对人员的要求也比较高，需要技术大牛来支持，否则一旦出现问题很难处理。比较耳熟的有Mycat，由于本人基于Mycat做过深度二次开发，对源码有一定的了解，缺陷真的很。。。。，希望使用者仔细斟酌，题外话o(￣︶￣)o

分布式数据库

耳熟的有TiDB，对外提供可伸缩的架构体系，提供一定的分布式事务，可伸缩和分布式事务在内部实现中包装，对用者无需直接控制这些特性，比如TiDB提供了JDBC接口，应用层使用TiDB和直连MySQL数据库使用方式没什么区别

分库分表带来的问题

数据切分后，分散在不同的DB中，在使用数据库原生的Join操作时，存在跨库Join，性能较差。
引入分布式事务，分布式事务的一致性很难解决。
分页，越往后翻页，查询越慢，比如查询100w后的10条数据，limit 1000000，10。
不停机扩容难度增大

后续文章会分析为了解决分库分表带来的问题，业界中有哪些比较成熟的解决方案，敬请期待...

作者：掘金小勇士
链接：
https://juejin.im/post/5edb0d1c6fb9a047ed240e36

Tags：分库分表点击:() 评论:()

声明：本站部分内容及图片来自互联网,转载是出于传递更多信息之目的,内容观点仅代表作者本人,如有任何标注错误或版权侵犯请与我们联系(Email:2595517585@qq.com)，我们将及时更正、删除，谢谢。

▌相关推荐

分库分表精辟解读

分库分表介绍：分库分表的目的是为了系统高并发、高可用。分库和年发表是两回事，两个概念，都是为了防止数据库服务因为同一时间内访问量过大导致宕机而设计的一种应对策略。一、...【详细内容】

2021-06-28　　Tags: 分库分表点击:(103)　　评论:(0)　　加入收藏

Java，ShardingSphere，Sharding-JDBC，分库分表的入门程序案例

Sharding-JDBC背景：出于工作的需要，非常需要详细了解数据库分表分库的内容，这样便于选择版本，了解原理及性能，做出更好的选择。Sharding-JDBC是ShardingSphere的第一个产品，也是Sh...【详细内容】

2021-05-14　　Tags: 分库分表点击:(214)　　评论:(0)　　加入收藏

数据库：我都快爆了，你为什么还不分库分表？

在文章开头先抛几个问题：什么时候才需要分库分表呢？我们的评判标准是什么？一张表存储了多少数据的时候，才需要考虑分库分表？数据增长速度很快，每天产生多少数据，才需要考虑做分...【详细内容】

2021-04-07　　Tags: 分库分表点击:(200)　　评论:(0)　　加入收藏

亿级大表分库分表实战总结

分库分表的文章网上非常多，但是大多内容比较零散，以讲解知识点为主，没有完整地说明一个大表的切分、新架构设计、上线的完整过程。因此，我结合去年做的一个大型分库分表项目，来复...【详细内容】

2020-11-19　　Tags: 分库分表点击:(176)　　评论:(0)　　加入收藏

基于 Flink 实现解决数据库分库分表任务拆分

1、场景描述例如订单库进行了分库分表，其实例如下图所示：现在的需求是希望创建一个任务就将数据同步到MQ集群，而不是为每一个数据库实例单独创建一个任务，将其数据导入到MQ集...【详细内容】

2020-11-16　　Tags: 分库分表点击:(310)　　评论:(0)　　加入收藏

分库分表的 9种分布式主键ID 生成方案，挺全乎的

《sharding-jdbc 分库分表的 4种分片策略》中我们介绍了 sharding-jdbc 4种分片策略的使用场景，可以满足基础的分片功能开发，这篇我们来看看分库分表后，应该如何为分片表生成...【详细内容】

2020-11-10　　Tags: 分库分表点击:(148)　　评论:(0)　　加入收藏

你们要的MyCat实现MySQL分库分表来了

在之前写过一篇关于mysql分库分表的文章，那篇文章只是给大家提供了一个思路，但是回复下面有很多说是细节问题没有提到。所以咔咔就在出了这篇文章。...【详细内容】

2020-08-18　　Tags: 分库分表点击:(70)　　评论:(0)　　加入收藏

恕我直言，我怀疑你并不会“分库分表”

随着互联网的迅速发展，会导致产生海量的数据，在数据量还比较小的时候，传统的处理方式是将数据存储在关系或者非关系型数据库中，但是随着数据量逐渐增加，单个数据库的表已经很难容...【详细内容】

2020-06-12　　Tags: 分库分表点击:(72)　　评论:(0)　　加入收藏

分库分表技术方案

0x01：TDDL（Taobao Distributed Data Layer）框架淘宝根据自己的业务特点开发了TDDL（Taobao Distributed Data Layer）框架，主要解决了分库分表对应用的透明化以及异构数据库之间的数...【详细内容】

2020-05-03　　Tags: 分库分表点击:(69)　　评论:(0)　　加入收藏

数据库分库分表最佳实践及说明

数据库瓶颈不管是IO瓶颈还是CPU瓶颈，最终都会导致数据库的活跃连接数增加，进而逼近甚至达到数据库可承载的活跃连接数的阈值。在业务service来看，就是可用数据库连接少甚至无...【详细内容】

2020-03-26　　Tags: 分库分表点击:(74)　　评论:(0)　　加入收藏

▌简易百科推荐

SQL常用增删改查语句

1增1.1【插入单行】insert [into] <表名> (列名) values (列值)例：insert into Strdents (姓名,性别,出生日期) values ('开心朋朋','男','1980/6/15&#3...【详细内容】

2021-12-27　　快乐火车9d3　　　　Tags:SQL 　点击:(2)　　评论:(0)　　加入收藏

以一个简单的查询存储过程为例，简单说一下sql的几种写法

最近发现还有不少做开发的小伙伴，在写存储过程的时候，在参考已有的不同的写法时，往往很迷茫，不知道各种写法孰优孰劣，该选用哪种写法，以及各种写法的优缺点，本文以一个简单的查询...【详细内容】

2021-12-23　　linux上的码农　　　　Tags:sql 　点击:(9)　　评论:(0)　　加入收藏

HasorDB 一个全功能数据库访问工具

《开源精选》是我们分享Github、Gitee等开源社区中优质项目的栏目，包括技术、学习、实用与各种有趣的内容。本期推荐的HasorDB 是一个全功能数据库访问工具，提供对象映射、丰...【详细内容】

2021-12-22　　GitHub精选　　　　Tags:HasorDB 　点击:(5)　　评论:(0)　　加入收藏

一文详解Liquibase如何自动化数据库脚本部署

作者丨Rafal Grzegorczyk译者丨陈骏策划丨孙淑娟【51CTO.com原创稿件】您是否还在手动对数据库执行各种脚本?您是否还在浪费时间去验证数据库脚本的正确性?您是否还需要将...【详细内容】

2021-12-22　　　　51CTO　　Tags:Liquibase 　点击:(4)　　评论:(0)　　加入收藏

SQL 中 on 和 where 条件放置的差异

场景描述：由于生产环境的表比较复杂，字段很多。这里我们做下简化，只为说明今天要聊的问题。有两张表 tab1，tab2： tab1 数据如下： tab2 数据如下：然后给你看下，我用来统计 name=&#3...【详细内容】

2021-12-20　　Bald　　　　Tags:SQL 　点击:(7)　　评论:(0)　　加入收藏

一文掌握SQL基础

前言知识无底，学海无涯，知识点虽然简单，但是比较多，所以将MySQL的基础写出来，方便自己以后查找，还有就是分享给大家。一、SQL简述1.SQL的概述Structure Query Language(结构化查...【详细内容】

2021-12-16　　谣言止于独立思考　　　　Tags:SQL基础　点击:(13)　　评论:(0)　　加入收藏

做测试不会 SQL？超详细的 SQL 查询语法教程来啦

前言作为一名测试工程师，工作中在对测试结果进行数据比对的时候，或多或少要和数据库打交道的，要和数据库打交道，那么一些常用的 SQL 查询语法必须要掌握。最近有部分做测试小伙...【详细内容】

2021-12-14　　柠檬班软件测试　　　　Tags:SQL 　点击:(15)　　评论:(0)　　加入收藏

C｜数据存储地址与字节偏移、数据索引

话说C是面向内存的编程语言。数据要能存得进去，取得出来，且要考虑效率。不管是顺序存储还是链式存储，其寻址方式总是很重要。顺序存储是连续存储。同质结构的数组通过其索引表...【详细内容】

2021-12-08　　小智雅汇　　　　Tags:数据存储　点击:(18)　　评论:(0)　　加入收藏

数据库迁移有什么技巧？|分享强大的database迁移和同步工具

概述DBConvert Studio 是一款强大的跨数据库迁移和同步软件，可在不同数据库格式之间转换数据库结构和数据。它将成熟、稳定、久经考验的 DBConvert 和 DBSync 核心与改进的现...【详细内容】

2021-11-17　　雪竹聊运维　　　　Tags:数据库　点击:(26)　　评论:(0)　　加入收藏

谈谈执行一条SQL的流程

一、前言大家好,我是小诚,《从0到1-全面深刻理解MySQL系列》已经来到第四章,这一章节的主要从一条SQL执行的开始,由浅入深的解析SQL语句由客户端到服务器的完整执行流程,最...【详细内容】

2021-11-09　　woaker　　　　Tags:SQL 　点击:(35)　　评论:(0)　　加入收藏

推荐资讯

聊聊如何自定义数据脱	河南人到底有多爱吃面
人称“犬中四煞”的4	离婚后，约定每月给孩子
“三皇五帝”分别是哪	印度低种姓群体如何翻
日本研发“飞行摩托”	2021年Steam最畅销游