索引是数据库快速找到记录行的一种数据结构,类似我们看书时的目录,它是良好性能的关键因素。尤其是表中的数据量越来越大时,如果索引使用不当,会严重影响性能。索引也是最常见的数据库优化手段,它能轻易的将查询性能提高好几个量级。
mysql索引数据是存储在存储引擎中的,所以不同存储引擎中索引的工作方式并不一样。
B-Tree索引:基于B+树(一种多叉搜索数树)来实现的索引类型,一般也是使用的最多的索引类型,之所以选择B+树而不是其他数据结构,是因为B+树在查询时间复杂度可以维持在O(logn)的级别上,由于B+的矮胖(从根节点到叶子节点的距离可以维持在较小范围)特性减少磁盘IO次数、数据只存在叶子节点中并且按顺序存储也可以支持快速的范围查询,这是其他结构无法满足的!
B+索引中值是按顺序存储的,叶子节点到根节点的距离都相同,从B+树的根节点开始往下查找,节点存储了指向叶子节点的指针,通过将要查找的值和每个节点值比较后,一层层定位到最终的叶子结点上,叶子节点存储的就是行数据、指针或主键。
假如我们索引列是:
key(lastname(姓),firstname(名),born),可以使用B+树索引的查询类型包括:全键值、键值范围、键前缀查找,其中键前缀只适用于最左前缀查找:
这里需要注意的是叶子节点存什么类型数据不同的存储引擎还不一样,在MyISAM中叶子节点存储的是数据物理位置(指针),而InnoDB使用B+结构存储的是原始数据或主键,也就是我们常说的聚簇索引,它存储的是原始全量数据、键值,聚簇索引指的是一种数据索引组织形式,它将数据和索引聚集在一起所以叫聚簇,它本身并不是一种索引类型。
一般InnoDB查找过程为从辅助索引上开始查找到数据主键,然后在主键索引中用主键再次查找,最后再找到数据,虽然多了一次查找过程,但更新数据不会导致聚簇索引频繁变化。而在MyISAM中不需要2次索引查找,因为叶子节点存储的是数据的物理地址可以直接定位,虽然查询看似简单了,但是物理地址会因为数据频繁变更而发生变化。
假设有以下数据:
InnoDB(聚簇索引)数据查找过程:
MyISAM(非聚簇索引结构)数据查找过程:
哈希索引:基于哈希表来实现的索引类型,如果存在哈希冲突,索引会使用链表来存放多个记录到一个哈希桶中。举个例子:如果存在以下索引 key USING HASH(firstname),哈希索引会使用哈希函数计算出firstname列的哈希值作为key,并将行指针作为value存储,当使用 =、IN()、<=>操作时,先计算出sql语句操作查找值的哈希值,并使用其来查找哈希表对应的行指针,从而返回数据。
这里需要注意是:
空间数据索引:MyISAM支持空间索引可以用来存储地理数据。必须使用GIS相关函数如MBRCONUNTAINS()来维护数据,因为本身mysql对GIS的支持下不完善,这中特性使用很少。
全文索引:这是一种特殊类型的索引,他查找的是索引列中文本的关键词,而不是比较索引值,全文索引的使用要注意列的文本大小和数据量,它的匹配方式类似于搜索引擎。
表数据为:
分别建2个独立索引:inx_name, inx_company :
现在执行以下语句:
SELECT * from tuser where `name`='22' or company='bb'
结果显示并没有使用索引来查询数据:
现在加一个多列索引:inx_name_company
执行同样的sql显示使用了多列索引:
//在city列上取前7个字符作为索引 mysql > alter table demo add key(city(7))
这是一种使索引更小,更快的方法,但缺点是无法使用缀索引order by或group by