分库分表的知识

我叫小八 2023-04-18 原文

简述

分库分表是数据量大的场景下的一种技术优化方案，当数据量逐渐增大，单库单表已经无法满足业务需求时，分库分表成为了一个必要的选项。
分库分表可以有效地缓解数据库的性能瓶颈，提高系统的稳定性和可扩展性。但是，也不是一旦数据量增大就直接分库分表一把梭的，还是得根据实际情况实际执行。一般我们认为，单表行数超过 500 万行或者单表容量超过 2GB之后，才需要考虑做分库分表了，小于这个数据量，遇到性能问题先建议大家通过其他优化来解决。

分库

分库主要解决的是并发量大的问题。因为并发量一旦上来了，那么数据库就可能会成为瓶颈，因为数据库的连接数是有限的，虽然可以调整，但是也不是无限调整的。
所以，当你的数据库的读或者写的QPS过高，导致你的数据库连接数不足了的时候，就需要考虑分库了。
那既然是分库，本质也是数据分片，根据业务选择垂直分库或者水平分库。
垂直分库是将数据库按照功能或业务模块进行分割，例如将订单相关的表存储在一个数据库中，将用户信息相关的表存储在另一个数据库中。垂直分库的优点是可以减少单个数据库的数据量和复杂度，降低单点故障的风险，并且更容易进行扩展和维护。但是，垂直分库可能会导致跨库查询和事务处理的复杂性增加，需要进行更多的数据同步和维护。
水平分库是将数据库中的数据按照某种规则（例如按照用户ID或时间范围）进行分割，并将每个分片存储在不同的数据库中。水平分库的优点是可以处理海量数据，并且可以更容易地进行扩展和负载均衡。

但是，水平分库需要更多的数据库实例和更复杂的数据同步和维护机制，而且在跨分片查询和事务处理方面也存在一些限制，所以一般情况下都会只采用垂直分库，而用分表来解决数据量大的问题。

分表

假如你的单表数据量非常大，因为并发不高，数据量连接可能还够，但是存储和查询的性能遇到了瓶颈了，你做了很多优化之后还是无法提升效率的时候，就需要考虑做分表了。
分表本质也是数据分片，根据业务选择垂直分表或者水平分表。
垂直分表就是把这张表中某一条记录的多个字段，拆分到多张表中，表中的数据的字段数会变少，使得每一个单表中的数据的存储有所下降。
水平分表就是把一张表中的不同的记录分别放到不同的表中，使得每一个单表中的数据的存储有所下降。那这种分表模式的话就得规划合适的分片键了，根据规划的分片键来决定数据落到哪张表里。

分片

分片算法

直接取模

在分库分表时，我们是事先可以知道要分成多少个库和多少张表的，所以，比较简单的就是取模的方式。
比如我们要分成128张表的话，就用一个整数来对128取模就行了，得到的结果如果是002，那么就把数据放到order_002这张表中。

Hash取模

那如果分表字段不是数字类型，而是字符串类型怎么办呢？有一个办法就是哈希取模，就是先对这个分表字段取Hash，然后在再取模。
但是需要注意的是，Java中的hash方法得到的结果有可能是负数，需要考虑这种负数的情况。

一致性Hash

前面两种取模方式都比较不错，可以使我们的数据比较均匀的分布到多张分表中。但是还是存在一个缺点。
那就是如果需要扩容二次分表，表的总数量发生变化时，就需要重新计算hash值，就需要涉及到数据迁移了。
为了解决扩容的问题，我们可以采用一致性哈希的方式来做分表。一致性哈希可以按照常用的hash算法来将对应的key哈希到一个具有2^32次方个节点的空间中，形成成一个顺时针首尾相接的闭合的环形。所以当添加新表时，只有增加表的位置和逆时针方向第一张表之间的键会受影响。
一致性Hash算法可参考另一篇博文，这里不做多解释。

全局ID

涉及到分库分表，就会引申出分布式系统中唯一主键ID的生成问题，因为在单表中我们可以用数据库主键来做唯一ID，但是如果做了分库分表，多张单表中的自增主键就一定会发生冲突。那就不具备全局唯一性了。
那么，如何生成一个全局唯一的ID呢？有以下几种方式：

UUID

很多人对UUID都不陌生，它是可以做到全局唯一的，而且生成方式也简单，但是我们通常不推荐使用他做唯一ID，首先UUID太长了，其次字符串的查询效率也比较慢，而且没有业务含义，根本看不懂。

雪花算法

雪花算法也是比较常用的一种分布式ID的生成方式，它具有全局唯一、递增、高可用的特点。
雪花算法生成的主键主要由 4 部分组成，1bit符号位、41bit时间戳位、10bit工作进程位以及 12bit 序列号位。
时间戳占用41bit，精确到毫秒，总共可以容纳约69年的时间。
工作进程位占用10bit，其中高位5bit是数据中心ID，低位5bit是工作节点ID，做多可以容纳1024个节点。
序列号占用12bit，每个节点每毫秒0开始不断累加，最多可以累加到4095，一共可以产生4096个ID。
所以，一个雪花算法可以在同一毫秒内最多可以生成1024 X 4096 = 4194304个唯一的ID

公共基因算法

这个算法来源于对于基因的分类的计算，可以把一个自定义的Id 加上期望根据某个字段来分片查询的hash值来组成新的Id，这样这个作为分片id的话就很方便的处理额外的查询字段了。

分库分表的工具

在选定了分表字段和分表算法之后，那么，如何把这些功能给实现出来，需要怎么做呢？
我们如何可以做到像处理单表一样处理分库分表的数据呢？这就需要用到一个分库分表的工具了。
目前市面上比较不错的分库分表的开源框架主要有三个，分别是sharding-jdbc、TDDL和Mycat

Sharding-JDBC

现在叫ShardingSphere（Sharding-JDBC、Sharding-Proxy和Sharding-Sidecar这3款相互独立的产品组成）。它定位为轻量级Java框架，在Java的JDBC层提供的额外服务。它使用客户端直连数据库，以jar包形式提供服务，无需额外部署和依赖，可理解为增强版的JDBC驱动，完全兼容JDBC和各种ORM框架。
开原地址：https://shardingsphere.apache.org

TDDL

TDDL 是淘宝开源的一个用于访问数据库的中间件，它集成了分库分表，读写分离，权重调配，动态数据源配置等功能。封装 jdbc 的 DataSource给用户提供统一的基于客户端的使用。
开源地址：https://github.com/alibaba/tb_tddl

Mycat

Mycat是一款分布式关系型数据库中间件。它支持分布式SQL查询，兼容MySQL通信协议，以Java生态支持多种后端数据库，通过数据分片提高数据查询处理能力。
开源地址：https://github.com/MyCATApache/Mycat2

存在问题

分库分表之后，会带来很多问题。
首先，做了分库分表之后，所有的读和写操作，都需要带着分表字段，这样才能知道具体去哪个库、哪张表中去查询数据。如果不带的话，就得支持全表扫描。
但是，单表的时候全表扫描比较容易，但是做了分库分表之后，就没办法做扫表的操作了，如果要扫表的话就要把所有的物理表都要扫一遍。
还有，一旦我们要从多个数据库中查询或者写入数据，就有很多事情都不能做了，比如跨库事务就是不支持的。
所以，分库分表之后就会带来因为不支持事务而导致的数据一致性的问题。
其次，做了分库分表之后，以前单表中很方便的分页查询、排序等等操作可能就都失效了，因为我们不能跨多表进行分页、排序。
总之，分库分表虽然能解决一些大数据量、高并发的问题，但是同时也会带来一些新的问题。所以，在做数据库优化的时候，还是建议大家优先选择其他的优化方式，最后再考虑分库分表。

分表分库 xff0c xff0 数据库

有关分库分表的知识的更多相关文章

ruby - 我怎样才能更好地了解/了解更多关于 Ruby 的知识？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我最近开始学习Ruby，这是我的第一门编程语言。我对语法感到满意，并且我已经完成了许多只教授相同基础知识的教程。我已经写了一些小程序(包括我自己的数组排序方法，在有人告诉我谷歌“冒泡排序”之前我认为它非常聪明)，但我觉得我需要尝试更大更难的东西来理解更多关于Ruby.关于如何执行此操作的任何想法？
ruby - Ruby基础知识 - 2
Asitcurrentlystands,thisquestionisnotagoodfitforourQ&Aformat.Weexpectanswerstobesupportedbyfacts,references,orexpertise,butthisquestionwilllikelysolicitdebate,arguments,polling,orextendeddiscussion.Ifyoufeelthatthisquestioncanbeimprovedandpossiblyreopened,visitthehelpcenter提供指导。已关闭8年。什么是学习ruby语言
ruby - 我应该具备哪些 Ruby 知识？ - 2
按照目前的情况，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引发辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter指导。关闭9年前。我刚刚发现了whatc#knowledgeshouldIhave?问题和想知道的相同，但对于Ruby。我认为Ruby是我最喜欢的编程语言，除了学习基础知识外，至少我从众多RubyonRails项目和一些Ruby脚本中学到的东西，我还尝试通过阅读像Gluttonous这样的博客来学习。,O'ReillyRuby,OlaBini,和PolishingRuby.
Unity基础知识之顶点吸附、创建组合体 - 2
Unity基础知识之顶点吸附、创建组合体一、顶点吸附顶点吸附：选择物体后按住键盘上的V键，鼠标定点定位，再拖拽到目标物体对齐即可。注：操作成功后先松V键。1、两个平面Plane的顶点吸附2、两个物体cube的顶点吸附二、创建组合体（子弹）组合体子弹由2个capsule（胶囊）、1个cylinder（圆柱体）组成，如图先创建这3个对象。再将其中一个capsule按照一定比例缩小，将三个对象按照一定位置放置好。创建一个GameObject，将三个对象放在该GameObject里，这样就是父子结构。为创建的组合体即子弹可以添加材质Material：在assets目录下新建Material，选择颜色后
【操作系统】十分钟了解关于TCP/IP网络的基础知识（二）ARP、路由器、DHCP、DNS以及TCP/IP - 2
承接上篇文章（十分钟了解关于TCP/IP网络的基础知识）五.ARP（地址解析协议）虽说使用IP地址确实方便了我们使用者记忆以及整理归类、寻找信息的发送目的地，但是最终接收数据的地方，还是MAC地址，于是乎，为了实现有IP地址到MAC地址的转换，引入了名为ARP（AddressResolutionProtocol）又称之为地址解析协议。 ARP通过广播（Broadcast，这是个专业名词，后面还会继续提起）的方式对LAN中所有的计算机提问：“哎，谁IP地址是10.165.7.116（上篇文章中的例子）呀？你MAC地址多少啊，快过来登记一下！”，如果有哪台计算机回复了MA
javascript - 我应该如何开始学习 JavaScript、jQuery 等？我的编程知识为零 - 2
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭8年前。Improvethisquestion我是设计出身。我的编程知识是零。在学习了XHTML和CSS之后，我想学习并掌握JavaScript、jQuery等。我应该如何开始？这将是我第一次尝试编程。我可以使用和编辑现成可用的jQuery/JavaScript脚本，但我不能自己制
《统计学》第八版贾俊平第六章统计量及抽样分布知识点总结及课后习题答案 - 2
一、知识框架二、练习题调节一个装瓶机使其对每个瓶子的灌装量均值为μ盎司，通过观察这台装瓶机对每个瓶子的灌装量服从标准差σ＝1.0盎司的正态分布。随机抽取这台机器灌装的9个瓶子组成一个样本，并测定每个瓶子的灌装量。试确定样本均值偏离总体均值不超过0.3盎司的概率。解：设每个瓶子的灌装量为X，X为样本均值，样本容量为n。由于总体X服从正态分布，样本均值X也服从正态分布，且均值相同，标准差为所以三、简述题1什么是统计量？为什么要引进统计量？统计量中为什么不含任何未知参数？答：（1）统计量的定义：设X1，X2，…，Xn是从总体X中抽取的容量为n的一个样本，如果由此样本构造一个函数T（X1，X2，…，X
Unity游戏开发前置知识 - 2
本文适合有一定C#基础的初学者。设计模式含义：帮助我们降低对象之间的耦合度常用的方法称为设计模式。使用设计模式是为了可重用代码，让代码更容易被其他人所理解，保证代码可靠性，使代码编制真正工程化，这是软件工程的基石。分类：创建型模式：工厂方法模式、抽象工厂模式、单例模式、建造者模式、组合模式、原型模式。结构型模式：适配器模式、装饰器模式、代理模式、外观模式、桥接模式、组合模式、享元模式。行为型模式：策略模式、模板方法模式、观察者模式、迭代子模式、责任链模式、命令模式、备忘录模式、状态模式、访问者模式、中介者模式、解释器模式。单例模式含义：一个类只有一个实例，只在内部实例一次，外部无法实例化，全局
高等数学重积分知识点笔记小结 - 2
一：二重积分1：二重积分的概念与性质：（1）首先知道什么叫曲顶柱体。（这里不多讲，不会百度）。（2）定义：设f(x,y)是有界闭区域D上的有界函数，将闭区域D任意分成n个小闭区域oi，在每个小区域上取一点f(ai,bi),做乘积f(ai,bi)oi,并作和。如果当各个闭区域的直径中的最大值max趋近于0时，这和的极限总存在，且与闭区域D的分法及点f(ai,bi)无关，那么称此极限为函数f(x,y)在闭区域D上的二重积分。（3）二重积分的六条重要性质：性质一：设a和b为常数，则*******性质二：如果闭区间D被有限条曲线分为有限个部分闭区间，那么在D上的二重积分等于在各部分闭区间上的二重积分
javascript - D3 力导向布局的基础知识 - 2
我正在使用d3.js进入令人兴奋的力导向布局世界。我掌握了d3的基础知识，但我无法弄清楚设置力导向布局的基本系统。现在，我正在尝试创建一个简单的布局，其中包含一些漂浮在中心的不相连的气泡。很简单吧!？创建了正确的圆圈，但没有任何反应。编辑:问题似乎是force.nodes()返回初始数据数组。在工作脚本中，force.nodes()返回一个对象数组。这是我的代码:$(function(){varwidth=600,height=400;vardata=[2,5,7,3,4,6,3,6];//createchartvarchart=d3.select('body').append('sv