大家好,这一期呢,我们来说一下,数据库表和索引的分区。讲解这个问题,对于不同的数据库可能有一些技术细节上的不同,因此我们以某个数据库比如sql server为例来探讨这个问题。
分区后的数据和索引分散到多个文件组里面,因此可以说这些数据是平行并列分布的,每组中的行都对应特定的那个分区。这些索引和表的分区都必须存在一个数据库里面。因此,在外部程序看来,不管内部有多少个分区,在外面看来就是一个数据表或者索引。
那么表或者索引的分区有什么好处呢?好处主要是两个方面,一个是管理起来比较容易,另一个方面是性能上更好一些。
相较于访问整表而言,访问某个分区的数据当然更快更有效率。
我们设想一下有这么一个案例,有一个表它有多个分区,这些分区对应的都是不同的文件组,而这些文件组呢又会分散到不同的硬盘上。
如果我们在排序的时候,一个硬盘一个硬盘的去访问的话,性能上就会很低。
要改善性能的话,我们可以使用RAID对分散到多个硬盘上的数据文件,同时进行访问。
再来说一下数据加锁的情况。在有多个分区的情况下,我们只需要对某个分区进行加锁,而不需要对整张表进行加锁,这样也可以提高操作的效率。这要在创建表的时候,修改表的属性,把lock_escalation这个选项设置为Auto。
下面是数据分区的几个重要概念。
首先是分区函数。分区函数用来定义如何进行分区。首先它定义了我们需要分多少个区。这些区的边界在哪里。打个比方说, 一张用户表中包含了用户的注册时间,注册地域等等信息。那我们可以以时间为参考创建分区。可以以月为单位或者以年为单位进行分区,这主要取决于你到底有多大的数据量。在这种情况下,时间,也就是某个月的起始与终止,或者某个年的起始与终止,作为数据边界的参考。
其次是分区列。分区列会被上面的分区函数拿来用作进行表和索引的分区。这个列必须被明确的标注为persisted。 理论上讲所有可以用作索引定义的列都可以当做分区列。
再次就是对应的索引。索引和原始表的分区函数,必须满足如下条件, 分区函数的参数必须具有相同的数据类型,他们必须具有相同数量的分区,他们必须具有相同的数据边界。
通俗的讲,数据进行了分区,索引的分区必须跟数据的分区进行对应,这样才可以提高效率。
对簇索引进行分区。当簇索引的键值并非唯一的时候,簇索引的键值并不需要指定包含分区列,在这种情况下,sql server 会缺省的把分区列添加到簇索引的键值中。如果簇索引的键值是唯一的,你必须显性的指定簇索引的键值包含分区列。
对非簇索引进行分区。当对于一个键值唯一的非簇索引进行分区时,索引键值必须包含分区列。当索引值不唯一时,数据库会缺省的让索引键值包含分区列。
接下来说一下非对应索引的情况。这种索引主要是独立于相关的数据表之外。主要是两种情况,一是这种索引有独立的分区定义,二是这种索引被放置在一个单独的文件组中。这种索引在如下情况下非常有用:
. 数据源表没有分区,
. 索引键是唯一的,并且不包含分区列
. 你会在数据源表上进行非常复杂的多表联合操作。
在性能的考量上。并不是说分区越多,性能就越好。这些分区都会影响到内存的消耗,CPU的繁忙程度。所以你在使用分区的时候,要找到你的平衡点。
具体的参数参考可以查找对应数据库的开发文档。
以上是我对这个话题一点心得看法。仅供参考,欢迎讨论, 欢迎拍砖。