hashtable初步——一文初探哈希表

少年π 2020-03-28 我要评论

在<<STL源码剖析>>中，vector封装了数组的数据结构，list封装了链表的结构，而set和map封装了二叉树的数据结构。那么hashtable，具有怎么的作用呢，其本质又是什么呢？本质就是查找表，既然是查找表，其查找效率自然就是O(1).下面来看看hashtable究竟是什么？

上述对hashtable的描述，表明了这样的观点：hashtable的引入其实就是相当于是一种字典，也就是查找表。当然了在内存空间十分富足的条件下，我们可以有多少元素，分配多大的内存空间，构成一一映射。但是这是不现实的，通常我们分配的内存空间大小远小于元素个数。

可见我们可以通过hash函数来产生映射关系，这种函数叫做散列函数，那么这种条件下，必然会带来，有些元素被映射到了相同的内存空间，而这个就叫做哈希冲突或者哈希碰撞，如下图表述：

也就是说，只要分配空间小于元素数量，碰撞问题是无法避免的，但是我们可以采用有效策略来提高检索效率，使得存在很多元素时候，这些元素在内存中的分布尽量均衡（减少有些内存单元无元素，有些内存单元元素很多这种不平衡情况）。在STL中，采用的策略是开拉链法（想想拉链的形状，这是很想形象的表述），来领教一下开拉链法

我们来看一下STL中的开拉链法究竟是如何实现的：

也就是，用一个vector存放所有bucket，vector的每一个内存单元存放一个bucket，而这个bucket究竟是什么呢？其本质就是其下面维护的链表的头节点！！！而每个bucket下面的链表，则存放了元素和指向下一个节点的地址。也就是每一个bucket维护一个list。这就是上面书中所说：表格内的每个单元，涵盖的不只是个节点，甚至可能是一桶节点。

我们可以从下图看到更加细节的东西：