揭开索引让SQL举步维艰的另一面

梁敬彬 2017-05-31 10:19:36

作者介绍

梁敬彬，福富研究院副理事长、公司唯一四星级内训师，国内一线知名数据库专家，在数据库优化和培训领域有着丰富的经验。多次应邀担任国内外数据库大会的演讲嘉宾，在业界有着广泛的影响力。著有多本畅销书籍，代表作有《收获，不止Oracle》。

任何事物都有它的两面性，索引也不例外，本文我们就来阐述一下索引的坏处。

大家可能没注意到，在查询语句中，如果更新语句出现，索引的缺点将很明显。因为索引本身是有序的，而更新数据的过程中也要更新索引，更新完后还要保持索引的有序性，这就需要付出很大的开销了，索引不好的一面就从这里开始显示出来了。

这里我们先简要综述一下索引的不足之处有哪些，而后详细阐述，随后一起和大家探索各种工作中的案例，最后为思考回顾。

总体学习思路如下图所示：

一、索引的不足之处

关于索引的不足之处，我们可以从索引的开销和容易失效这两个方面来讨论，如下图所示：

索引的各种开销

还记得前面关于索引结构的分析吗？通过系列步骤，我们明白了索引的结构，推导出索引的三大特性，并应用这些特性让SQL跑得更快。

这只是索引好的一面。真正有问题的一面被掩盖了。那到底都有什么问题呢？

热块竞争

你看，索引最新的数据块一般是在最右边，而我们访问数据时正常来说也是访问比较新的数据，历史数据很少有人关注。然而问题来了，大家都一起访问最新的数据，不就都集中于同一个目标来访问了吗？这就很容易产生热块竞争。

回表开销

另外，大家都知道索引存储索引列的值和rowid，通过rowid来定位回到表中。其实这个回到表中的开销也是很大，具体情况我们随后可以了解到。

更新开销

索引的有序性是一个非常重要的特性，这个特性能够消除排序等开销，但是索引块要保持有序性，可不是一件容易的事。毕竟索引列的数据是随机插入的，比如你在原来的索引列中存储的是100、110、111等等时，现在要插入101，就应该在100和111之间插入，为了保证这个顺序索引需要做很多事，比如索引块分裂。而索引列的增删改的开销是很大的。

建立开销

还有千万别忽略了建立索引的开销，这也和索引的有序性有关。我们在建索引的过程中，首先把索引列的数据排序提取出来，再插入到块中形成索引块，这时如果数据不断地插入，排序提取这个动作什么时候能结束呢？所以还必须要锁表，这就是一个很大的开销（Online建索引是一种特殊的思路，这里不做描述）。当然建索引过程中排序这个动作本身也是一个不小的开销。

索引使用失效

索引的不足之处除了上述的几点外，从另一个维度看，还会有失效的可能。我们现在知道建索引对查询一般比较有利，对更新一般比较有害。不过有的时候，虽然建了索引，但其对查询毫无帮助，这种情况还是有的。比如索引失效了，这分为逻辑失效和物理失效两种。

逻辑失效

逻辑失效是索引本身并没有真正失效，只是由于写法的问题导致索引用不上，比如对SQL的条件列进行运算，类似select * from t where upper(name)=‘ABC’等，这时在name列上建了Btree索引是用不上的。再或者比如被人强制用了全表扫描的Hint等导致数据库被迫不用索引等。

物理失效

物理失效就是索引真的失效了，比如被人误设了unusable动作，或者是一些类似分区表的不规范操作导致的索引失效。对此后续有详细的例子说明。

二、感受美好索引另一面

前面简要描述了索引的不足之处，接下来我们进行更加详细的展开说明，具体细节如下：

索引各种开销

访问集中导致热块的竞争

由于一般来说，最新的值都是最新产生的，所以访问它容易产生热块竞争。举例来说，如： select * from t where id=100000，select * from t where id=99999;select * from t where id=99998;select * from t where id=99997;这些数据很可能是相邻的，那么它们就会在同一个索引块上，这样很容易产生热点索引块竞争。

回表性能取决于聚合因子

结论：索引查询要尽可能避免回表，如果不可避免，则需要关注聚合因子是否过大。（注：这个例子在前面的章节已经说过了，这里就不再详述了。）在该例子中，构造脚本organized表的聚合因子比较小，回表的代价较低，产生了2900个buffer，如下：