25丨Hash索引的底层原理是什么?
25丨Hash索引的底层原理是什么?
讲述:陈旸
时长06:49大小6.26M
动手统计 Hash 检索效率
MySQL 中的 Hash 索引
Hash 索引与 B+ 树索引的区别
总结
赞 9
提建议
精选留言(30)
- 吴小智2019-08-22所以老师能在稍微解释一下“自适应 Hash 索引”吗?自己查了一些资料,不是很懂。
作者回复: 我们先回顾下B+树索引和Hash索引: B+树索引是MySQL的默认索引机制,也是大部分 因为可以使用范围搜索,可以很容易对数据进行排序操作,在联合索引中也可以利用部分索引建进行查询。这些情况下,我们都没法使用Hash索引,是因为Hash索引仅能满足=, <>, IN查询,不能使用范围查询,同时因为数据的存储是没有顺序的,所以在ORDER BY的情况下,还需要对数据重新进行排序。而对于联合索引的情况,Hash值是针对联合索引建合并后一起来计算Hash值,因此无法对单独的一个键或者几个索引键进行查询。 好了,默认使用B+树作为索引是因为B+树存在着以上的优点,那为什么还需要自适当Hash索引呢?这里,需要了解Hash索引的特点,因为Hash索引结构的特点,导致它的检索数据效率非常高,通常只需要O(1)的复杂度,也就是一次就可以完成数据的检索。虽然Hash索引的使用场景有很多限制,但是优点也很明显,所以MySQL提供了一个自适当Hash索引的功能(Adaptive Hash index)。注意,这里的自适应指的是不需要人工来制定,而是系统根据情况来自动完成的。 那什么情况下才会使用自适应Hash索引呢?如果某个数据经常会访问到,当满足一定条件的时候,就会将这个数据页的地址存放到Hash表中。这样下次查询的时候,就可以直接找到这个页面的所在位置。需要说明的是: 1)自适应哈希索引只保存热数据(经常被使用到的数据),并非全表数据。因此数据量并不会很大,可以让自适应Hash放到缓冲池中,也就是InnoDB buffer pool,进一步提升查找效率。 2)InnoDB中的自适应Hash相当于是“索引的索引”,采用Hash索引存储的是B+树索引中的页面的地址。这也就是为什么可以称自适应Hash为索引的索引。 采用自适应Hash索引目的是可以根据SQL的查询条件加速定位到叶子节点,特别是当B+树比较深的时候,通过自适应Hash索引可以提高数据的检索效率。 3)自适应Hash采用Hash函数映射到一个哈希表中,所以对于字典类型的数据查找非常方便 哈希表是数组+链表的形式。通过Hash函数可以计算索引键值所对应的bucket(桶)的位置,如果产生Hash冲突,如果产生哈希冲突,就需要遍历链表来解决。 4)是否开启了自适应Hash,可以通过innodb_adaptive_hash_index变量来查看,比如:mysql> show variables like '%adaptive_hash_index'; 所以,总结下InnoDB本身不支持Hash,但是提供自适应Hash索引,不需要用户来操作,而是存储引擎自动完成的。自适应Hash也是InnoDB三大关键特性之一,另外两个分别是插入缓冲(Insert Buffer)和二次写(Double Write)。
共 4 条评论76 - 用0和1改变自己2019-08-081,Hash索引有很大的限制,如联合索引、模糊查询、范围查询,以及列里有重复值多。 2,需要遍历链表中所有行指针,逐一进行比较,直到找到所有符合条件的
作者回复: 对的
16 - TKbook2019-08-07有个疑问,在数组中,针对下标的检索,时间复杂度是O(1)。老师的代码中用的是result.index(i),这个函数用的应该不是下标检索。因为当我把代码改成result[i],检索时间 0.0009975433349609375
作者回复: 因为我们要找的是某个元素的值,比如我添加的元素是1,3,5,7...99 一共50个元素,如果我想要找7这个元素,你会用7作为下标进行检索,还是将7作为元素值进行查找呢? 这里就需要检索具体的数值,对于数组来说下标是自动分配的,所以我们需要遍历数组来找到某个数值。 而对于字典来说,我们就可以创建索引了
共 4 条评论14 - 我行我素2019-08-07回复下蒙开强,如果是使用navicat创建索引的时候在后面是可以直接选择索引类型的,如果使用sql创建索引就是在穿件的使用using指定,一般默认是B+
作者回复: 多谢分享 我行我素同学
10 - 蒙开强2019-08-07老师,你好,hash索引与B+树索引是在建索引的时候手动指定么
作者回复: 在MySQL的InnoDB和如果使用的是MySQL的话,我们需要了解下MySQL的存储引擎都支持哪些索引结构,可以参考https://dev.mysql.com/doc/refman/8.0/en/create-index.html) 针对MySQL 默认的存储引擎InnoDB,或者使用MyISAM存储引擎都会默认使用的是B+树来进行存储,无法使用Hash索引。InnoDB提供的自适应Hash是不需要手动指定的。如果是Memory/Heap,或者是NDB存储引擎,是可以进行选择的(Hash还是B+树)。
共 2 条评论10 - 渴望飞的哺乳类2019-08-11老师,B+ 树使用 LIKE 进行模糊查询的时候,like ‘xx%’ 才会使用到索引吧
作者回复: 对的,like 后面需要有内容(不能直接是通配符),比如 'xx%' 是OK的
共 2 条评论9 - wusiration2019-08-08mysql查询中存在着很多范围查询、order by的场景,在这些场景下,B+树的性能好于Hash索引;关键字出现相同Hash码时,会出现hash冲突。
作者回复: 对的 所以对于一般需求来说,B+树在数据库应用的场景更多,Hash适用一些特殊的需求,比如文件校验,密码学等
6 - 许童童2019-08-07老师你好,数组检索数据的算法复杂度为 O(n)。 不应该也是O(1)吗?
作者回复: 感谢提问,一个数组如果有n个元素,需要遍历完所有的元素才能找到某个元素,所以是O(n),如果是O(1)就是不需要遍历,直接找到那个元素
共 7 条评论6 - 许童童2019-08-07查找某个固定值时 Hash 索引比 B+ 树更快,为什么 MySQL 还要采用 B+ 树的存储索引呢?另外,当两个关键字的 Hash 值相同时会发生什么? 因为B+ 树的一些特性像范围查询,联合索引的最左侧原则,支持 ORDER BY 排序等Hash索引没有。 会发生Hash冲突,然后去按key顺序在桶中等值查找。
作者回复: 对的
4 - 汪zZ2020-03-19感觉有点抽象。原理都知道。但是不会用共 1 条评论3
- David.cui2020-02-16Hash最大的使用场景是where=的情况3
- 王加武2019-12-221、第一个问题 因为我们在实际的应用中遇到的情况是多种多样,等值查询只是一种而已,而hash索引存在hash冲突,并且有很多的限制,所以需要B+树,在不同的情况下适合的来选择使用! 2、第二个问题 发生hash冲突,然后遍历桶中的行指针来比较,这是非常耗时的一个操作,数据量很小还看不出来,数据量一大,几百万几千万,那这个效率可不是一般的差! 不存在没有hash冲突的hash函数,所以在使用hash索引的时候一定要分析清楚!展开2
- 爱思考的仙人球2019-10-20hash函数里的桶(bucket)和hive里的桶(bucket)原理是一样的吗?
作者回复: 采用bucket分桶的概念都是一样的
3 - ABC2019-08-08感觉Hash索引和Java的HashMap的Hash实现有点像,不过Java用链地址法解决了Hash冲突的问题。
作者回复: 对 原理上是一样的
共 2 条评论3 - bigliu662020-07-16而 B+ 树使用 LIKE 进行模糊查询的时候,LIKE 后面前模糊查询(比如 % 开头)的话就可以起到优化作用。这句话不太对吧,应该是 LIKE '属性%' 这种后模糊才会起到优化作用吧。共 1 条评论2
- Ashlar2019-08-08能不能请老师分别推荐一下学习MySQL,Oracle,sql Server的一些书籍或者资料呢?
作者回复: 可以看下关于MySQL高性能优化的书籍,如果是数据库初学者也可以先从SQL Server开始,毕竟微软的产品在操作界面上上手简单。书籍有《21天学通SQL Server》《SQL优化最佳实践》《MySQL技术内容:SQL编程》《Oracle从入门到精通》
2 - 一语中的2019-08-08来自信息安全专业,看到这一节hash索引原理中提到hash算法,hash是不可逆的,有种异常熟悉的感觉,嗯,那些年学的安全算法们AES,DES,IDEA,Hash,HMAC...
作者回复: 感谢分享
2 - Geek_Wison2019-08-07前模糊查询具体指啥,能举一个具体的例子吗?比如是指: 'a%' 还是指 '%a' ?
作者回复: 前模糊查询就是类似 %a 这种,因为在字符串匹配的前面就是模糊查询了
共 2 条评论1 - Geek_dc18622022-05-18能说一下哈希搜索的过程吗?看的不是很明白
- 李博2021-05-07老师,hash索引中的❌和点分别是什么意思,为什么后面有的点指向的内容是叉,有的叉指向内容是点共 1 条评论