09 | 数据库优化方案(二):写入数据量增加时,如何实现分库分表?
09 | 数据库优化方案(二):写入数据量增加时,如何实现分库分表?
讲述:唐扬
时长13:45大小12.59M
如何对数据库做垂直拆分
如何对数据库做水平拆分
解决分库分表引入的问题
课程小结
一课一思
赞 32
提建议
精选留言(86)
- 每天晒白牙2019-10-07主要内容梳理 写入请求量大会造成性能和可用性的问题,如何应对呢? 采取对数据进行"分片",这是一种思想,在数据库中就是分库分表,Kafka中是分区,ES中是分片 分库分表的思想是根据某种分配策略把数据尽量均匀的分到多个数据库节点或多个表中,这样每个数据库节点和表都只存储部分数据,这样对数据的存储、读和写都有意义 存储:因为分库分表后每个节点和表只存储部分数据,这样就能解决数据存储的瓶颈 读:因为每个节点和表存储部分数据,数据量变小,可以提升查询性能 写:数据写入被分摊到多个节点和表,写入性能提高 分库分表有两种方式:垂直拆分和水平拆分 垂直拆分的关注点在业务相关性,原则是按照业务拆分,核心思想是专库专用,将业务耦合度高的拆分到单独库中 水平拆分是把单一数据库按照某种规则拆分到多个数据库和多个数据表中,关注点在数据的特点 水平拆分的两种方法 1.根据某个字段的hash值拆分 比如想把用户表拆成16库64表,方案如下 先对id进行hash操作hash(id),这样有助于打散数据 然后对16取余 hash(id)%16,这样就得到了分库后的索引 最后对64取余 hash(id)%16%64,这样就得到了分表后的索引值 2.根据某个字段的区间或范围拆分 可以根据时间拆分 引入分库分表确实有很多优点,但也会引入新的问题 1.引入了分区分表键,也叫分区键 因为我们需要对分区键进行hash进行索引,这样就导致我们查询都要带上该分区键,比较好的解决办法是用id做分区键,但是如果有根据用户昵称查询的需求怎么办呢? 解决办法就是建立一个昵称和id的映射表 2.一些数据库的特性的实现变得困难 (1)夸库join不可用 解决办法是在业务代码中做处理 (2)求count 采取第三方组件例如redis实现 课后思考题 大数据的存储组件一般都涉及数据分片技术 例如Kafka的分区,ES的分片等等 拿Kafka的分区来举例 Kafka会对消息的key进行hash然后对分区数量取模,这样就得到了topic对应的分区索引 疑问点 1.老师我想请教下就是多库join的问题,如果采用在业务代码中进行处理不太妥吧,数据量太大了,如果有分页或排序的需求,这是要把各个库的数据都查出来,在内存中进行操作,这样会想当耗费内存,且性能低,老师有啥好办法吗? 2.如果一个订单库采用了买家id做为分区键,这样查询买家的订单非常容易,那要查询卖家的订单是不是和文中根据昵称查询一样,建立一个卖家和买家的映射表解决? 3.文中老师说如果要做分库分表留言一次性做到位,但这样在开始会很浪费空间,所以一般公司还是会采取慢慢扩容的方式,这样就引入了不停机迁移数据的问题,针对这种情况,老师是怎么做的呢? 谢谢老师展开
作者回复: 1.多表join一般不会是全量数据,是分页数据,所以只有一少部分 2.建议是订单ID分库分表,然后建立买家ID和卖家ID和订单ID的映射 3. 一般是先双写两个库,然后校验数据,然后灰度切读,最后全量切读
共 8 条评论86 - Xiang2020-02-22介绍一个 range+hash 分库分表的方案吧,分库分表?如何做到永不迁移数据和避免热点? https://mp.weixin.qq.com/s/QFlUPS8X0errMwpxdBMHvg
作者回复: 👍
共 8 条评论34 - 撒旦的堕落2019-10-09老师说的道理 我都明白 只是如果现在有一张上亿的表 并且存在特定属性更新 那么如何不停机 进行分库分表 有木有具体的实践
作者回复: 可以搭建新的库之后,先在业务上双写,然后校验两边的数据,再灰度切读,再全量切读
共 6 条评论27 - 逍遥飞鹤2020-03-25如果是因读性能引起的分库分表,可考虑ES或MongoDB、HBase的数据重构方式,避免在MySQL做文章 如果是写性能引起的分库分表,可按老师上面的这些原则进行实践和改造
作者回复: 是的
共 4 条评论16 - leesir2019-11-20分库分表如何做: 1、对实体表,路由规则可以是id取模,计算得到数据真正存放的表。可以降低单表的规模,平均每个表的数据量。 2、对时间倒排的列表,比如微博内容或者订单,可以根据时间字段水平分表,将近期少部热点数据集中到一起。 分库分表所引发的问题的解决方案: 1、由于分区规则的原因,查询无论如何都必须拿到分区键。可以对某些高频非分区键字段建立二级映射,模拟mysql主键和二级索引的解决方式(二级索引的叶子数据存放的是主键索引)。比如根据name查询用户,可以建立name和uid的映射,查询时先根据name拿到uid,再用uid做后续查询。 2、数据库拆分后,针对联表查询,要么少做联表,要么做数据冗余(表字段冗余,或者其他nosql数据冗余)。 3、分布式事务 a) 数据库中间件 b) mq事务消息 c) 将分布式大事务转化成多个本地小事务,通过异步通知+定时补偿+幂等实现最终一致性展开11
- 枫叶112019-10-07公司小业务少时,不可能一开始就规划很多库和表(如16*64),就像很多项目开始都只有一个库,但是我们做架构时可以预先考虑到后面可能会分库分表。请问老师,能不能讲一下最开始设计数据库时需要为今后分库分表考虑哪些因素,和一旦扩容后数据迁移的方案和注意点。谢谢。
作者回复: 主要考虑数据的增长情况,数据迁移一般是先双写旧库和新库,然后校验数据,然后灰度切读,最后全量切读,注意点就是数据校验过程,会比较繁琐
共 5 条评论11 - 正在减肥的胖籽。2019-10-09分库分表之后,对于app端查询的问题还比较好解决。但是后端运营系统查询就麻烦,比如订单分库分表后,运营系统查询订单的时候可能根据多维度查询,这种方案您在工作中是怎么去解决的?我现在的做法就是同步到es里面。用ES去查。
作者回复: 可以的,也可以同步到一个大库中,不过性能有点儿差
共 2 条评论9 - Chocolate2019-10-07老师,请问下昵称和 ID 的映射表怎么建立,是按照昵称进行分库分表吗,即先查询这个昵称在哪个库哪个表,然后找到 ID,根据 ID 所在的库和表进行查询吗?
作者回复: 是的,没错
共 5 条评论8 - 深深的人2019-10-15老师查询conut怎么做冗余,那种有where条件的
作者回复: 可以考虑用es
6 - jc9090kkk2019-10-08感谢老师分享,对于分表有点疑问: 1.如果是用户信息表需要分表,数据量大的前提下,需要准备一个映射表来存储昵称+uid的对应关系,文中提到了映射表也可以做分库分表,基本的思路是什么?用户在做登录相关操作的时候,都不知道昵称+uid的映射关系在哪张表中,难道是通过昵称算出hash值来确定分区键? 2.如果hash分表的策略又达到了瓶颈,需要更多的容量呢?基于对业务影响最小的方案是采用数据冗余+新的分区表还是重建分表规则做数据迁移?这一部分没有讲到哦,后面能否专门讲解下,一般应该是前者吧,因为后者在数据量大的情况下做一次数据迁移成本太高了? 3.对于文中提到的,16个库每个库中64张表,1024个张表,这个分表策略的理由是什么?个人感觉这个分表规则显得有些太浮夸了,因为有些业务压根用不到这么多表,甚至有时候分表操作是分表策略(局部分表)+当前模式(局部不分表)公用的方式来协调的,一步一步迭代过来的?不是很理解文中提到的这个策略的容量是如何计算出来的?如果数据量压根用不到这么多表,数据过于分散,对于管理和维护成本来讲有点小题大做了吧? 另外有一点,文中提到的总计数的问题,用redis存储的前提是当前的业务逻辑不是敏感的,用redis可以提升性能,如果是敏感业务的话,在更新数据库后还没有写入redis中的这个时间差,请求并发没办法估量和控制,所以最后的数据总量仅仅是最终的数据是一致的,但是逻辑是不一致的,核心原因是redis和mysql是属于不同的存储系统,无法做到两个系统公共支持一个分布式事物,无法拿到精确一致的视图,当然如果是非敏感业务,在保证性能的前提下,逻辑不一致可以容忍的话是可以考虑这种方案的。展开
作者回复: 1. 是对昵称做hash,登陆的时候不需要知道昵称呀,可以针对手机号做hash,昵称是用来判断昵称是否存在 2. 不太清楚数据冗余 + 新的分区表的意思,是增加新的分区表吗?那么就要改分库分表的规则,那这样原先的数据就读不到了?是要做数据迁移? 3. 是需要一步步迭代,这里是说这些库表是足够了,如果业务没有那么大数据量,可以按照业务来 4. 计数是最终一致就好了
共 2 条评论6 - Sam_Deep_Thinking2020-05-28我觉得分库和分表要单独分开来讲。要分库,是因为并发写压力太大,不得不分,这个时候分表是没任何作用的,单个数据库实例瓶颈就在那。而分表,在数据量大,而并发写压力不高时,就很合适,也没必要分库。 另外比较赞同的是,尽量不分库分表,实在没办法才做这一步,部分情况下,做数据归档也是可以的。展开共 1 条评论6
- 小喵喵2019-10-10老师能详细介绍一下分区和分片技术吗?共 1 条评论5
- 黑暗浪子2019-10-10这个东西能不用就不用。毕竟很多老系统还有超多join操作,你一开始分库分表,所有代码都要重写。我倒觉得换es,mongodb是个好思路
作者回复: 如果有运维能力也可
共 2 条评论6 - Corner2019-10-07请教老师,为什么id要先做hash再做取余计算分库位置呢?直接用id取余不可以吗?
作者回复: 直接取余也好,只是怕ID会不均匀
共 6 条评论5 - Josey2020-03-24老师,我们现在面临一个问题,如果我们在使用某个业务字段哈希之后分了64张表之后,后面又发现分表后性能瓶颈,要把64张表分成128张表,这种操作就需要把原来的哈希规则重制,有什么好的办法解决吗?
作者回复: 要么一次分足够多的表,要么可以采用类似时间范围这样不需要hash得分表方式
共 3 条评论3 - 张珂2020-01-21老师好,我这辈子做过的最大系统,不仅仅用上分库分表和读写分离了。很简单就是在100个MySQL,每个MySQL有100个表,这样根据id后四位就可以定位到它应该放在哪个MySQL和哪个表。但是因为每天可能有20亿的事务量,长此以往的数据积累,单表超过2000万时增改查性能都急剧下降,而且还有大数据团队要从这里导数据出去,低峰时还要删数据。那么我们就在时间纬度上也做了“分库分表”的思想:这一套分库分表乘以31,每天一套表来做日切,于是避免了单表过大,线上导数据风险大的问题,但业务上只能实时查询的31天内的数据,就是成本好大运维压力挺大。展开
作者回复: 👍能解决问题就好
共 2 条评论3 - xu晓晨2019-10-08如果分库分表后 又增加了一个库来存储。那么原来的数据岂不是都不能用了?所有的数据再需要重新的分一遍吗? 据说一致性hash能解决这问题?老师可以具体说说吗
作者回复: 一致性hash解决不了这个问题,如果要增加库的话,只能重新分配,所以会比较麻烦
共 3 条评论3 - 红鲤鱼与绿鲤鱼与驴ba...2020-05-21老师关于分表的问题,比如您文章中说的 用户分表 根据uid 进行hash运算,分了一共16个库(0-15)我要获取某个用户的信息 ,可以根据uid 进行hash运算 找到对应的用户表,这个能理解,但是在添加的时候呢? 分了16个库,来一个注册用户,这时候这个用户的注册数据应该怎么进行hash计算,让用户数据写入到对应的分库中?
作者回复: uid可以用发号器生成,然后就可以根据uid知道写哪一个库了
2 - null2020-04-29老师,你好! 订单表分库分表之后,像后台 OA 系统,带查询条件订单分页列表,带查询条件count 订单数量,这些需求该如何实现吖?
作者回复: 一般会同步到一个非分库分表的存储中,比如elasticsearch,或者单个mysql,因为后台的请求量不大,所以还好
共 2 条评论3 - M2019-12-04麻烦请教下老师,项目中单表百万级的多表联查怎么做优化呢?
作者回复: 额,尽量不做连表,互联网业务比较简单,一般可以查出数据后,在内存中关联
共 2 条评论2