Mysql分区裁切问题

我的女友叫胜楠 2023-03-28 原文

在看这个问题前，我默认您已经了解了mysql分区的相关概念，以及它的优点和缺点。本篇就不再赘述了，网上有非常多很优秀的总结，但是还是建议有能力的同学直接看官网内容。

一、简介

最近在做针对一张大表的查询优化，表结构相对简单，字段20多个，但有些varchar类型字段长度非常长。但该表每天都会被提交上百万的数据，时间长该表的查询与插入就变得非常非常的慢。调研后决定通过分区的形式优化该表。第一次分区后使用业务sql无法对分区查询进行正确的裁剪。

二、选择使用分区机制的理由：

（1）因为业务相对简单，并且都为单表查询，95%的查询都跟时间范围查询相关。

（2）数据需要定期清理数据，无需保留全部数据

（3）数据无更新操作，只有插入操作。

三、业务描述

该表类似于一个日志记录表，用于记录一次交易请求的全部登记信息。因为是前置服务，不用一直保留全部的记录，所以与需求人员沟通后决定只保留7天的数据。并且要提升插入数据的性能。

四、设计

方案一：

通过对表中数据 write_time（datetime类型） 字段进行取模操作，使其按照日期分别落入7天中的相应分区内。相应的操作语句如下。MOD(TO_DAYS(write_time), 7)为分区逻辑，使用RANGE 方式进行分区。

ALTER TABLE tableName PARTITION BY RANGE(MOD(TO_DAYS(write_time), 7)) 
(
    PARTITION p0 VALUES LESS THAN (1) ENGINE = InnoDB,
    PARTITION p1 VALUES LESS THAN (2) ENGINE = InnoDB,
    PARTITION p2 VALUES LESS THAN (3) ENGINE = InnoDB,
    PARTITION p3 VALUES LESS THAN (4) ENGINE = InnoDB,
    PARTITION p4 VALUES LESS THAN (5) ENGINE = InnoDB,
    PARTITION p5 VALUES LESS THAN (6) ENGINE = InnoDB,
    PARTITION p6 VALUES LESS THAN (7) ENGINE = InnoDB,
)

分区后 mysql会根据分区逻辑，将数据划分到不同的分区中。通过如下语句可以知道各个分区中数据的数量。到目前位置数据已经进入了相应的分区。

select Partition_name, table_rows from information_schema.`PARTITIONS` where table_name='tableName ';</pre>

按照业务逻辑对数据进行范围查询与统计

（1）时间范围查询（<= >=未正确对分区进行裁剪）

EXPLAIN select * from tableName where write_time <= "2021-10-01 23:59:00" and write_time >= "2021-10-01 22:00:00";

发现并没有对分区进行正确的裁剪（Partition Pruning）而是扫描了所有的分区，产生的执行计划如下：

1655564818013.png

（2）指定日期查询（=可以正确裁剪分区）

EXPLAIN select * from tableName where write_time = "2021-10-01 23:59:00"</pre>

这次执行计划中展示的裁剪分区后 , 查询的分区符合我们的期，但是这不符合我们需求。

image.png

最终各种尝试后这个方案被否掉。

方案二：（可行方案）

使用 TO_DAYS 函数对 write_time（datetime类型）字段进行处理，使其落入相应的天分区内。同样可以对数据进行正确的划分，但带来的问题就是要动态的删除分区与新增分区，因为时间时是不停的向前走的， LESS THAN（）中的值是要递增的。所以可以通过建立定时任务，去定时执行对 pmax 分区（最后一个分区）的重新分区，并且删掉指定分区。例如在每天的 23：59：00 执行该定时任务。

ALTER TABLE tableName PARTITION BY RANGE ( TO_DAYS(write_time) ) (
    PARTITION p1 VALUES LESS THAN (738429) ENGINE = InnoDB,
    PARTITION p2 VALUES LESS THAN (738430) ENGINE = InnoDB,
    PARTITION p3 VALUES LESS THAN (738431) ENGINE = InnoDB,
    PARTITION p4 VALUES LESS THAN (739532) ENGINE = InnoDB,
    PARTITION p5 VALUES LESS THAN (740533) ENGINE = InnoDB,
    PARTITION p6 VALUES LESS THAN (741534) ENGINE = InnoDB,
    PARTITION p7 VALUES LESS THAN (742535) ENGINE = InnoDB,
    PARTITION pmax VALUES LESS THAN MAXVALUE
);

按照业务逻辑对数据进行范围查询与统计

（1）时间范围查询（<= >= 未正确对分区进行裁剪）

EXPLAIN select * from tableName where write_time <= "2021-10-01 23:59:00" and write_time >= "2021-10-01 22:00:00";

通过执行计划查看，该处理方式复核预期：

image.png

并且对需求的所有业务场景尝试（指定日期时间的查询或统计，时间范围的查询或统计）后，均可符合预期。

四、一点思考

1. 为什么使用取模的方式，无法对分区进行正确的裁切？

（1）其实 mysql官网已经明确了对于 DATE， DATETIME 类型的段可以通过 YEAR() , TO_DAYS() 函数进行处理。官网上的写比较明确了。

This type of optimization can be applied whenever the partitioning expression consists of an equality or a range which can be reduced to a set of equalities, or when the partitioning expression represents an increasing or decreasing relationship. Pruning can also be applied for tables partitioned on a DATE or DATETIME column when the partitioning expression uses the YEAR() or TO_DAYS() function. Pruning can also be applied for such tables when the partitioning expression uses the TO_SECONDS() function.
官网链接：https://dev.mysql.com/doc/refman/8.0/en/partitioning-pruning.html

除了YEAR(), TO_DAYS() 这两个官网文章中的函数外，我还尝试了 MONTH()， DAYOFWEEK()，DAYOFYEAR()等其他 Mysql 的函数，均未能正确的裁切分区。

（2）其实未能正确裁切分区的结论也是应该的，因为我们设计d的取模逻辑是周而复始的是一个循环，数据通过取模后不会不停的落到 LESS THAN 1 到 7的分区中，我们给定一个时间范围是不容易快速正确计算出分区区间的。

举例解释说明一下我的猜想与思考。

例1：日期范围是【2022-06-13】至【2022-06-20】刚好为期 7天（一周），那么根据开始日期与结束日期计算产生的结果都是同一分区（假设P1），那我们查询数据时的范围不应该只是这一个分区，而是 P1 - P7所有的分区都要搜索。

例2：日期范围是【2022-06-13】至【2022-06-21】的与【2022-06-13】至【2022-06-14】根据开始日期与结束日期计算产生的分区都是 P1，P2分区。但是前者应该要扫描P1-P7的所有分区，而后者应该只扫描 P1和P2分区就好。

小结：

所以对于这种场景设计的分区，其实在对分区裁剪时包含很多的场景与可能。所以解析器在解析这个过程时，可能会不如直接扫描所有分区来的快。

2. 对于 YEAR() , TO_DAYS() 这种可以正确裁剪分区函数的思考。

这两种函数所产生的结果，都是线性的。比如说年 YEAR()，产生的结果都是一直递增的，并不会有两个不同年份的日期经过 YEAR()函数得出同一个结果。TO_DAYS()函数也同样是这样，结果永远是线性的，不会循环往复，或有重复。

参考文章：

MySQL :: MySQL 8.0 Reference Manual :: 24.4 Partition Pruning
MySQL RANGE分区 - pursuer.chen - 博客园
 为什么这个MySql查询(在分区表上)总是命中第一个分区？ - 码客

有关Mysql分区裁切问题的更多相关文章

ruby - 在 64 位 Snow Leopard 上使用 rvm、postgres 9.0、ruby 1.9.2-p136 安装 pg gem 时出现问题 - 2
我想为Heroku构建一个Rails3应用程序。他们使用Postgres作为他们的数据库，所以我通过MacPorts安装了postgres9.0。现在我需要一个postgresgem并且共识是出于性能原因你想要pggem。但是我对我得到的错误感到非常困惑当我尝试在rvm下通过geminstall安装pg时。我已经非常明确地指定了所有postgres目录的位置可以找到但仍然无法完成安装:$envARCHFLAGS='-archx86_64'geminstallpg--\--with-pg-config=/opt/local/var/db/postgresql90/defaultdb/po
ruby - 通过 rvm 升级 rubygems 的问题 - 2
尝试通过RVM将RubyGems升级到版本1.8.10并出现此错误:$rvmrubygemslatestRemovingoldRubygemsfiles...Installingrubygems-1.8.10forruby-1.9.2-p180...ERROR:Errorrunning'GEM_PATH="/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/ruby-1.9.2-p180@global:/Users/foo/.rvm/gems/ruby-1.9.2-p180:/Users/foo/.rvm/gems/rub
ruby - 通过 RVM (OSX Mountain Lion) 安装 Ruby 2.0.0-p247 时遇到问题 - 2
我的最终目标是安装当前版本的RubyonRails。我在OSXMountainLion上运行。到目前为止，这是我的过程:已安装的RVM$\curl-Lhttps://get.rvm.io|bash-sstable检查已知(我假设已批准)安装$rvmlistknown我看到当前的稳定版本可用[ruby-]2.0.0[-p247]输入命令安装$rvminstall2.0.0-p247注意:我也试过这些安装命令$rvminstallruby-2.0.0-p247$rvminstallruby=2.0.0-p247我很快就无处可去了。结果:$rvminstall2.0.0-p247Search
ruby - Fast-stemmer 安装问题 - 2
由于fast-stemmer的问题，我很难安装我想要的任何rubygem。我把我得到的错误放在下面。Buildingnativeextensions.Thiscouldtakeawhile...ERROR:Errorinstallingfast-stemmer:ERROR:Failedtobuildgemnativeextension./System/Library/Frameworks/Ruby.framework/Versions/2.0/usr/bin/rubyextconf.rbcreatingMakefilemake"DESTDIR="cleanmake"DESTDIR=
Ruby rpartition 与分区？ - 2
rpartition和partition有什么区别？我已经阅读了文档，但我认为它们是一样的。只是那些出现在后来的ruby版本中吗？最佳答案以下示例将有助于识别差异:"abccba".partition("b")#=>["a","b","ccba"]"abccba".rpartition("b")#=>["abcc","b","a"]所以区别在于rpartition搜索最右边的匹配项，而不是最左边的匹配项。关于Rubyrpartition与分区？，我们在StackOverflow
ruby - 安装 Ruby 时遇到问题(无法下载资源 "readline--patch") - 2
当我尝试安装Ruby时遇到此错误。我试过查看this和this但无济于事➜~brewinstallrubyWarning:YouareusingOSX10.12.Wedonotprovidesupportforthispre-releaseversion.Youmayencounterbuildfailuresorotherbreakages.Pleasecreatepull-requestsinsteadoffilingissues.==>Installingdependenciesforruby:readline,libyaml,makedepend==>Installingrub
java - 从 JRuby 调用 Java 类的问题 - 2
我正在尝试使用boilerpipe来自JRuby。我看过guide从JRuby调用Java，并成功地将它与另一个Java包一起使用，但无法弄清楚为什么同样的东西不能用于boilerpipe。我正在尝试基本上从JRuby中执行与此Java等效的操作:URLurl=newURL("http://www.example.com/some-location/index.html");Stringtext=ArticleExtractor.INSTANCE.getText(url);在JRuby中试过这个:require'java'url=java.net.URL.new("http://www
ruby-on-rails - 简单的 Ruby on Rails 问题——如何将评论附加到用户和文章？ - 2
我意识到这可能是一个非常基本的问题，但我现在已经花了几天时间回过头来解决这个问题，但出于某种原因，Google就是没有帮助我。(我认为部分问题在于我是一个初学者，我不知道该问什么......)我也看过O'Reilly的RubyCookbook和RailsAPI，但我仍然停留在这个问题上.我找到了一些关于多态关系的信息，但它似乎不是我需要的(尽管如果我错了请告诉我)。我正在尝试调整MichaelHartl'stutorial创建一个包含用户、文章和评论的博客应用程序(不使用脚手架)。我希望评论既属于用户又属于文章。我的主要问题是:我不知道如何将当前文章的ID放入评论Controller。
【高数】用拉格朗日中值定理解决极限问题 - 2
首先回顾一下拉格朗日定理的内容：函数f(x)是在闭区间[a,b]上连续、开区间(a,b)上可导的函数，那么至少存在一个，使得:通过这个表达式我们可以知道，f(x)是函数的主体，a和b可以看作是主体函数f(x)中所取的两个值。那么可以有，也就意味着我们可以用来替换这种替换可以用在求某些多项式差的极限中。方法：外层函数f(x)是一致的，并且h(x)和g(x)是等价无穷小。此时，利用拉格朗日定理，将原式替换为，再进行求解，往往会省去复合函数求极限的很多麻烦。使用要注意：1.要先找到主体函数f(x)，即外层函数必须相同。2.f(x)找到后，复合部分是等价无穷小。3.要满足作差的形式。如果是加
使用canal同步MySQL数据到ES - 2
文章目录一、概述简介原理模块二、配置Mysql使用版本环境要求1.操作系统2.mysql要求三、配置canal-server离线下载在线下载上传解压修改配置单机配置集群配置分库分表配置1.修改全局配置2.实例配置垂直分库水平分库3.修改group-instance.xml4.启动监听四、配置canal-adapter1修改启动配置2配置映射文件3启动ES数据同步查询所有订阅同步数据同步开关启动4.验证五、配置canal-admin一、概述简介canal是Alibaba旗下的一款开源项目，Java开发。基于数据库增量日志解析，提供增量数据订阅&消费。Git地址：https://github.co