Good Idea, 利用MySQL JSON特性优化千万级文库表

阿千弟 2023-04-22 原文

👳我亲爱的各位大佬们好😘😘😘
♨️本篇文章记录的为 利用MySQL JSON特性优化千万级文库表 相关内容，适合在学Java的小白,帮助新手快速上手,也适合复习中，面试中的大佬🙉🙉🙉。
♨️如果文章有什么需要改进的地方还请大佬不吝赐教❤️🧡💛
👨‍🔧 个人主页 : 阿千弟
🔥 上期内容👉👉👉 : AOP的另类用法 (权限校验&&自定义注解)

前言:

一个类似于知网，范围又不局限于论文的这样的一个高质量文库，比如图书呢，它也有着与图书专属的这种类型属性，那像这样的底层的数据表呢，有几十个，都是围绕着一份文档来进行的描述，那刚开始构建的时候，我的哥们遇到了一个比较棘手的问题，就是不同类型的图书呢，他们所使用的属性是不一样的😥😥😥.

问题描述: 多表关联查询, 效率低

比如说图书类的文档呢，它可能会包含SBN、出版社这些信息，而论文类的呢，它要发表在报纸、期刊、杂志上，同时呢，还要去登记版号、版面等等这些信息，至于其他的，比如说一些网文或者一些高价值的文章呢，也都有自己的一些专有的属性，那么这就意味着在进行一个文档提取的时候，前台要显示出来，我们要底层查询的表其实是很多的.

我简单的罗列一下，比如说先要获取文档的主体的内容，然后去获取对应这个文档是哪个类型的，之后呢，再获取这个文档所拥有的哪些属性，比如说这个文档是个图书的话，那么它要获取SBN和出版社，然后再根据刚才的SBN和出版社获取这个文档，存在一些多对多的关系，那除此以外，还有比如说其他若干个基础信息都分散在了不同的表里边，那么我们可以看到针对于这一个操作来说，它呢其实包含了很多个数据表的查询和关联，这个处理效率在它们之前没有经过优化的时候呢，大概需要200毫秒时间才能把这些数据都提取完，那后来他们是怎么调整的呢？

解决方案一 : 反范式设计

一个版本，这个1.0呢，就是采用反范式设计，基于宽表，也就是我们典型的空间换时间，可以看到刚才我们处理慢的一个主要思路呢，就是一个数据表要查询多次才能获得完整的信息。那如果我们把这些数据都。综合到一个宽表里边儿，也就是我们反范式表是不是就可以了呢？

其实这个思路非常的好，我们可以比如说把所有的属性呢，以列的形式在这儿呢，都进行体现出来

弊端

在当前的这个宽表中呢，包含了所有可能会出现的属性，哪一个属性有数据，我们就提取哪一个，但是针对宽表呢，在我们日常工作中啊，并不太推荐使用，有两个原因 :

它的字段一多以后，字段的动态填充和减少是要锁表的，尤其在数据量一大的时候，比如现在我们针对某一个杂文又有一个新的属性，你一旦添加列的时候，整个这个表就锁了。对于我们的维护非常的不方便.
数据查询的时候非常麻烦,难以基于动态列的方式来进行了提取数据
作为宽表还有一些不能解决的问题，难以体现出一对多的关系

解决方案二 : mysql5.7后Json特性

采用mysql5.7之后所提供的一个叫Json的数据类型，所谓Json数据类型啊，其实就是把我们日常开发中数据序列化产生的这个Json直接存储到了mysql的对应的Json列里边，作为MYSQL5.7以后天然的对于这个Jason的存储解析，还有提取呢，都进行了支持

创建json列

这里模拟插入一条假数据

INSERT INTO t_base_data VALUES (1,'量子纠缠理论', 
	'{ "caption": "量子领域",
	"brandId": 103,
	"category1Id": 903,
	"category2Id": 945,
	"category3Id": 946,
	"freightId": 10 ,
	"image":"https://img14.360buyimg.com/n1/jfs/t1/181065/5/3216/48663/6098c03fEad0ea4e5/659d59d79f8d0043.jpg",
	"introduction": "遇事不决,量子力学",
	"saleService": "实验室实战",
	"templateId": 42}'
);

执行sql语句

SELECT NAME,
(JSON_EXTRACT(content, '$.brandId')) brandId,
JSON_UNQUOTE(JSON_EXTRACT(content, '$.caption')) caption
FROM t_base_data;

可以看出

JSON_UNQUOTE 函数作用是去除json字符串的引号，将值转成string类型
JSON_EXTRACT 函数作用是提取json值

使用json中的字段作为查询条件

SELECT NAME,
	content -> '$.brandId' brandId,
	content -> '$.caption' caption
FROM t_base_data
	WHERE content -> '$.templateId' = 42;

-> 表达式等同于 JSON_EXTRACT(content , '$.caption'))

SELECT NAME,
	content ->> '$.brandId' brandId,
	content ->> '$.caption' caption
FROM t_base_data
	WHERE content -> '$.templateId' = 42;

->> 表达式等同于 JSON_UNQUOTE(JSON_EXTRACT(content , ‘$.caption’))

很好, 通过上面的方法, 我们可以很好的将弱关联字段查询出来了, 但是呢, 这个方式仍然不够完美, 虽然解决了链表查询耗时的问题, 但是我们如果想在千万级的数据中查询出我们所期望的这仍然很耗时

不妨尝试建立索引, 我们该怎么建索引呢?

小老弟小老妹们可能就要问了, 都是json串, 怎么建立索引呢

也许你们忘了一种叫做虚拟列的东西

继续优化

1. 创建虚拟列

ALTER TABLE t_base_data ADD COLUMN tb_templateId VARCHAR(32) GENERATED ALWAYS AS (content -> '$.templateId');

那与此同时呢，还有一个优秀的特点，基于这样书写以后，如果我们原始的Json数据发生了变化，只要一更新以后，对应的结果也会随之发生对应，从使用的角度来说，它就是一个标准的字段，只不过这个字段呢，只能读不能写而已

2. 将索引创建在虚拟列上

CREATE INDEX idx_tb_templated ON t_base_data(tb_templateId);

EXPLAIN SELECT * FROM t_base_data WHERE `tb_templateId` = 43;

可以看到索引已经生效, 问题完美解决

总结 : 效率高, json实用性强

利用JSON解决动态数据问题，MySQL5.7以后提供了JSON数据类型，可以直接对JSON存储、提取与解析。
因为JSON是弱约束的，因此存储数据非常灵活，同时也可基于虚拟列实现索引优化。

我的哥们儿把数据的查询效率一下子提升了有十几倍之多，这是一个非常好的办法, 在未来的项目中，我也会考虑基于Jason的这种活性呢，来优化我们的程序结构

如果这篇【文章】有帮助到你💖，希望可以给我点个赞👍，创作不易，如果有对Java后端或者对spring感兴趣的朋友,请多多关注💖💖💖
👨‍🔧 个人主页 : 阿千弟

有关Good Idea, 利用MySQL JSON特性优化千万级文库表的更多相关文章

Ruby 缺少常量表达式优化？ - 2
我希望Ruby的解析器会进行这种微不足道的优化，但似乎并没有(谈到YARV实现，Ruby1.9.x、2.0.0):require'benchmark'deffib1a,b=0,1whileb由于这两种方法除了在第二种方法中使用预定义常量而不是常量表达式外是相同的，因此Ruby解释器似乎在每个循环中一次又一次地计算幂常数。是否有一些Material说明为什么Ruby根本不进行这种基本优化或只在某些特定情况下进行？最佳答案很抱歉给出了另一个答案，但我不想删除或编辑我之前的答案，因为它下面有有趣的讨论。正如JörgWMittag所说，
ruby-on-rails - 优化读取数据库和写入csv文件 - 2
我正在尝试从数据库中读取大量单元格(超过100.000个)并将它们写入VPSUbuntu服务器上的csv文件。碰巧服务器没有足够的内存。我正在考虑一次读取5000行并将它们写入文件，然后再读取5000行，等等。我应该如何重构我当前的代码以使内存不会被完全消耗？这是我的代码:defwrite_rows(emails)File.open(file_path,"w+")do|f|f该函数由sidekiqworker调用:write_rows(user.emails)感谢您的帮助! 最佳答案这里的问题是，当您调用emails.each时，
软约束、硬约束、Minimum Snap的轨迹优化方法 - 2
文章目录前言约束硬约束的轨迹优化Corridor-BasedTrajectoryOptimizationBezierCurveOptimizationOtherOptions软约束的轨迹优化Distance-BasedTrajectoryOptimization优化方法前言可以看看我的这几篇Blog1，Blog2，Blog3。上次基于MinimumSnap的轨迹生成，有许多优点，比如：轨迹让机器人可以在某个时间点抵达某个航点。任何一个时刻，都能数学上求出期望的机器人的位置、速度、加速度、导数。MinimumSnap可以把问题转换为凸优化问题。缺点：MnimumSnap可以控制轨迹一定经过中间的
ruby-on-rails - 负载测试期间 Unicorn CPU 使用率激增，优化方法 - 2
我对为我的RubyonRails3.1.3应用优化我的Unicorn设置的方法很感兴趣。我目前正在高CPU超大实例上生成14个工作进程，因为我的应用程序在负载测试期间似乎受CPU限制。在模拟负载测试中，每秒大约20个请求重放请求，我的实例上的所有8个内核都达到峰值，盒子负载飙升至7-8个。每个unicorn实例使用大约56-60%的CPU。我很好奇可以通过哪些方式对其进行优化？我希望能够每秒将更多请求汇集到这种大小的实例上。内存和所有其他I/O一样完全正常。在我的测试过程中，CPU越来越低。最佳答案如果您受CPU限制，您希望使用
美团外卖搜索基于Elasticsearch的优化实践 - 2
美团外卖搜索工程团队在Elasticsearch的优化实践中，基于Location-BasedService（LBS）业务场景对Elasticsearch的查询性能进行优化。该优化基于Run-LengthEncoding（RLE）设计了一款高效的倒排索引结构，使检索耗时（TP99）降低了84%。本文从问题分析、技术选型、优化方案等方面进行阐述，并给出最终灰度验证的结论。1.前言最近十年，Elasticsearch已经成为了最受欢迎的开源检索引擎，其作为离线数仓、近线检索、B端检索的经典基建，已沉淀了大量的实践案例及优化总结。然而在高并发、高可用、大数据量的C端场景，目前可参考的资料并不多。因此
iOS快捷指令：执行Python脚本（利用iSH Shell） - 2
文章目录前言核心逻辑配置iSH安装Python创建Python脚本配置启动文件测试效果快捷指令前言iOS快捷指令所能做的操作极为有限。假如快捷指令能运行Python程序，那么可操作空间就瞬间变大了。iSH是一款免费的iOS软件，它模拟了一个类似Linux的命令行解释器。我们将在iSH中运行Python程序，然后在快捷指令中获取Python程序的输出。核心逻辑我们用一个“获取当前日期”的Python程序作为演示（其实快捷指令中本身存在“获取当前日期”的操作，因而此需求可以不用Python，这里仅仅为了演示方便），核心代码如下。>>>importtime>>>time.strftime('%Y-%
c# - 与 C# 相比，您会强调 Ruby 的哪些语言特性？ - 2
我正在就Ruby语言和环境向.NET(C#)开发团队进行一系列演讲。我把它当作一个机会来强调Ruby相对于C#的优势。首先，我想在进入环境之前专注于语言本身(RoR与ASPMVC等)。你会介绍Ruby语言的哪些特性？最佳答案我刚才在一个.NET用户组做了一个关于IronRuby的演讲，遇到了类似的问题。我关注的事情是:鸭子打字。没有什么比ListstringList=newList()更愚蠢的了;表达力强，语法简洁。简单的事情，比如省略括号、数组和散列文字等(结合鸭子类型，你会得到string_list=[]这显然更好)。所有的
基于RTS超低延时直播优化强互动场景体验 - 2
RTS在阿里云视频直播的基础上进行底层技术优化，通过集成阿里云播放器SDK，支持在千万级并发场景下节点间毫秒级延时直播的能力，弥补了传统直播存在3~6秒延时的问题，确保了超低延时、低卡顿、秒开流畅的直播观看体验。本文介绍了基于RTS超低延迟直播优化强互动场景体验的最佳实践方案，并以阿里云播放器Aliplayer为例，详细介绍RTS超低延迟拉流接入、自动降级、排障信息获取等逻辑的实现，助力企业打造互动直播行业的产品竞争力。适用场景该方案适用于对超低延迟直播有诉求的客户，尤其是业务中存在强互动场景直播的场景。强互动场景直播主要是指对主播和观众存在互动，或观众存在更高实时性观看、画面互动需求的情况，
ruby - 你最喜欢 Ruby 的什么特性？ - 2
就目前而言，这个问题不适合我们的问答形式。我们希望答案得到事实、引用或专业知识的支持，但这个问题可能会引起辩论、争论、投票或扩展讨论。如果您觉得这个问题可以改进并可能重新打开，visitthehelpcenter为指导。9年前关闭。已向.NET提出类似问题和Java，但不适用于Ruby。所以，你最喜欢Ruby的什么特性？您可能还对hiddenfeaturesofRuby感兴趣.请具体说明，并为每个答案发布一项功能。解释或代码示例会很好。最佳答案块非常好:my_array.each{|element|printelement}#.
ruby-on-rails - Ruby on Rails 最酷的特性是什么，为什么选择它？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭8年前。Improvethisquestion在我问这个问题之前，我浏览了SO上“RubyonRails”的搜索结果。找不到太多，但以下(foundonthispage)让我觉得很有趣Personally,Istartedusing.html,movedontophp,triedruby(hatedit),discoveredPython/DJango..andhavebeenhappyeversince.这就是交易。我个人目前还没有