Clickhouse表引擎探究-ReplacingMergeTree

Jcloud 2023-03-28 原文

作者：耿宏宇

1 表引擎简述

1.1 官方描述

MergeTree 系列的引擎被设计用于插入极大量的数据到一张表当中。数据可以以数据片段的形式一个接着一个的快速写入，数据片段在后台按照一定的规则进行合并。相比在插入时不断修改（重写）已存储的数据，这种策略会高效很多。

ReplacingMergeTree 引擎和 MergeTree 的不同之处在于它会删除排序键值相同的重复项。
数据的去重只会在数据合并期间进行。合并会在后台一个不确定的时间进行，因此你无法预先作出计划。有一些数据可能仍未被处理。尽管你可以调用 OPTIMIZE 语句发起计划外的合并，但请不要依靠它，因为 OPTIMIZE 语句会引发对数据的大量读写。

1.2 本地表语法

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
...
) ENGINE = ReplacingMergeTree([ver])
[PARTITION BY expr]
[PRIMARY KEY expr]
[ORDER BY expr]
[SAMPLE BY expr]
[TTL expr [DELETE|TO DISK 'xxx'|TO VOLUME 'xxx'], ...]
[SETTINGS name=value, ...]

参数介绍

ver — 版本列。类型为 UInt*, Date 或 DateTime。可选参数。
在数据合并的时候，ReplacingMergeTree 从所有具有相同排序键的行中选择一行留下：
1.如果 ver 列未指定，保留最后一条。
2.如果 ver 列已指定，保留 ver 值最大的版本。
PRIMARY KEY expr 主键。如果要选择与排序键不同的主键，在这里指定，可选项。
默认情况下主键跟排序键（由 ORDER BY 子句指定）相同。因此，大部分情况下不需要再专门指定一个 PRIMARY KEY 子句。
SAMPLE BY EXPR 用于抽样的表达式，可选项
PARTITION BY expr 分区键
ORDER BY expr 排序键

1.3 分区表语法

CREATE TABLE [IF NOT EXISTS] [db.]table_name [ON CLUSTER cluster]
(
name1 [type1] [DEFAULT|MATERIALIZED|ALIAS expr1],
name2 [type2] [DEFAULT|MATERIALIZED|ALIAS expr2],
...
) ENGINE = Distributed(cluster, database, table[, sharding_key[, policy_name]])
[SETTINGS name=value, ...]

参数介绍

cluster 集群名
table 远程数据表名
sharding_key 分片规则
policy_name 规则名，它会被用作存储临时文件以便异步发送数据

2 键的概念

Clickhouse的部署，分为单机模式和集群模式，还可以开启副本。两种模式，数据表在创建语法、创建步骤和后续的使用方式上，存在一定的差异。

在定义表结构时，需要指定不同的键，作用如下。

分片：所有分片节点的权重加和得到S，可以理解为sharing动作取模的依据，权重X=W/S。分片键 Mod S 得到的值，与哪个分片节点匹配，则会写入哪个分片。不同分片可能存在于不同的集群节点，即便不同分片在同一节点，但ck在merge时，维度是同一分区+同一分片，这是物理文件的合并范围。
如果我们权重分别设置为1,2,3 那么总权重是6,那么总区间就是[0,6),排在shard配置第一位的node01,权重占比为1/6,所以属于区间[0,1),排在shard配置第二位的node02,占比2/6,所以区间为[1,3),至于最后的node03就是[3,6).所以如果rand()产生的数字除以6取余落在哪个区间,数据就会分发到哪个shard,通过权重配置,可以实现数据按照想要的比重分配.

3 分片的作用

3.1 分片规则

在分布式模式下，ClickHouse会将数据分为多个分片，并且分布到不同节点上。不同的分片策略在应对不同的SQL Pattern时，各有优势。ClickHouse提供了丰富的- - - sharding策略，让业务可以根据实际需求选用。

random随机分片：写入数据会被随机分发到分布式集群中的某个节点上。
constant固定分片：写入数据会被分发到固定一个节点上。
column value分片：按照某一列的值进行hash分片。
自定义表达式分片：指定任意合法表达式，根据表达式被计算后的值进行hash分片。

3.2 类比

以MySQL的分库分表场景为例：

2个库，1个表分4个子表，采用一主一从模式。
db01包含tab-1和tab-2，db-2包含tab-3和tab-4；
在配置sharding规则时，需要设置分库规则、分表规则；
一条记录写入时，会计算它要写入哪个表、哪个库，写入的记录会被从节点复制。

这个MySQL的例子，与CK的分区+分片+副本在逻辑上基本一致。分区理解为数据写入哪个表，分片可以理解为数据写入哪个库，副本则是从节点的拷贝。

3.3 分片、分区与副本

Clickhouse分片是集群模式下的概念，可以类比MySQL的Sharding逻辑，副本是为了解决Sharing方案下的高可用场景所存在的。
下图描述了一张Merge表的各类键的关系，也能反映出一条记录的写入过程。

4 数据合并限制

理清了分区与分片的概念，也就明白CK的数据合并，为什么要限制相同分区、相同分片，因为它们影响数据的存储位置，merge操作只能针对相同物理位置（分区目录）的数据进行操作，而分片会影响数据存储在哪个节点上。
一句话，使用CK的ReplacingMergeTree引擎的去重特性，期望去重的数据，必须满足拥有相同排序键、同一分区、同一分片。
接下来针对这一要求，在数据上进行验证。

5 数据验证

5.1 场景设置

这里是要验证上面的结论，“期望去重的数据，必须满足在相同排序键、同一分区、同一分片”；
首先拥有相同排序键才会在merge操作时进行判断为重复，因此保证测试数据的排序键相同；剩余待测试场景则是分区与分片。
由此进行场景设置：

相同记录，能够写入同一分区、同一分片
相同记录，能够写入同一分区，不同分片
相同记录，能够写入不同分区，不同分片
相同记录，能够写入不同分区、相同分片
再叠加同步写入方式：
直接写本地表
直接写分布式表
补充：分区键与分片键，是否必须相同？

5.2 第一天测试

场景1：相同记录，能够写入同一分区、同一分片

一次执行3条插入，插入本地表
[main_id=101,sku_id=SKU0002；barnd_code=BC01,BC02,BC03]
select * from test_ps.sku_detail_same_partition_same_shard_all;

分三次执行，插入本地表
[main_id=101,sku_id=SKU0001；barnd_code=BC01,BC02,BC03]
select * from test_ps.sku_detail_same_partition_same_shard_all;

分三次执行，插入分布式表
[main_id=101,sku_id=SKU0001；barnd_code=BC001,BC002,BC003]
select * from test_ps.sku_detail_same_partition_same_shard_all;

select * from test_ps.sku_detail_same_partition_same_shard_all final;

结论1
1.采用分布式表插入数据，保证分片键、分区键的值相同，才能保证merge去重成功
排除本地表插入场景
2.采用本地表插入数据，在分片键、分区键相同的情况下，无法保证merge去重

在一个session（一次提交）里面包含多个记录，直接会得到一条记录，插入过程去重
在第一次insert时，准备的3条insert语句是一次执行的，查询后只有1条记录。
在多个session（多次提交）记录，不会直接去重，但有可能写到不同集群节点，导致无法去重
分3次执行3条insert语句，查询后有3条记录，且通过final查询后有2条记录，合并去重的那2条记录是写入在同一集群节点。【参考SKU0002的执行结果】

后面直接验证插入分布式表场景。

场景2：相同记录，能够写入同一分区，不同分片

分片键采用的rand()方式，随机生成。

分三次执行，插入分布式表
[main_id=103,sku_id=SKU0003；barnd_code=BC301,BC302,BC303]
检查数据插入状态
select * from test_ps.sku_detail_same_partition_diff_shard_all where main_id =103 ;

检查merge的去重结果
select * from test_ps.sku_detail_same_partition_diff_shard_all final where main_id =103 ;

分五次执行，插入分布式表
[main_id=104,sku_id=SKU0004；barnd_code=BC401,BC402,BC403,BC404,BC405]
检查数据插入状态
select * from test_ps.sku_detail_same_partition_diff_shard_all where main_id =104 ;

检查merge的去重结果
select * from test_ps.sku_detail_same_partition_diff_shard_all final where main_id =104 ;

结论2

采用分布式表插入数据，保证分区键的值相同、分片键的值随机，无法保证merge去重

如果插入记录时，通过rand()生成的数字取模后的值一样，很幸运最终可以merge去重成功
如果插入记录时，通过rand()生成的数字取模后的值不一样，最终无法通过merge去重

场景3：相同记录，能够写入不同分区，不同分片

分片键采用的rand()方式，随机生成；
分区键为了方便测试，采用创建时间。

分五次执行，插入分布式表
[main_id=105,sku_id=SKU0005；barnd_code=BC501,BC502,BC503,BC504,BC505]

检查数据插入状态
select * from test_ps.sku_detail_diff_partition_diff_shard_all where main_id =105 ;

检查merge的去重结果
select * from test_ps.sku_detail_diff_partition_diff_shard_all final where main_id =105;

结论3
采用分布式表插入数据，分区键的值与排序键不一致、分片键的值随机，无法保证merge去重

按当前测试结果，虽然create_time都不相同，也就是分区不同，也发生了数据合并
数据发生合并，但结果并不是完全按排序键进行合并的

场景4：相同记录，能够写入不同分区、相同分片

分片键采用main_id；
分区键为了方便测试，采用创建时间。

分六次执行，插入分布式表
[main_id=106,sku_id=SKU0006；barnd_code=BC601,BC602,BC603,BC604,BC605,BC606]

检查数据插入状态
select * from test_ps.sku_detail_diff_partition_same_shard_all where main_id =106 ;

检查merge的去重结果
select * from test_ps.sku_detail_diff_partition_same_shard_all final where main_id =106;

此场景，经过第二天检索，数据并没有进行merge，而是用final关键字依然能检索出去重后的结果。也就是说final关键字只是在内存中进行去重，由于所在分区不同，文件是没有进行merge合并的，也就没有去重。反观相同分区、相同分片的数据表，数据已经完成了merge合并，普通检索只能得到一条记录。

结论4
采用分布式表插入数据，分区键的值与排序键不一致、分片键的值固定，无法实现merge去重

5.3 第二天检查

以下均采用普通查询，发现如下情况

分片不同的表，其数据没有合并
分片相同、分区不同的没有合并
分片相同、分区相同的已经完成了合并

select * from test_ps.sku_detail_same_partition_same_shard_all;

select * from test_ps.sku_detail_same_partition_diff_shard_all;

select * from test_ps.sku_detail_diff_partition_diff_shard_all;

select * from test_ps.sku_detail_diff_partition_same_shard_all;

6 总结

根据测试结果，在不同场景下的合并情况：

如果数据存在在相同分片，且相同分区，绝对可以实现合并去重。
如果数据存储在不同分片，不同分区，将不会进行合并去重。
如果数据存储在不同分片，但同一分片内保证在相同分区，会进行此分片下的merge去重。
如果数据存在在相同分片，但不同分区，不会进行merge去重，但通过final关键字可以在CK内存中对相同分区、相同分片的数据进行去重。

在Clickhouse的ReplacingMergeTree进行merge操作时，是根据排序键（order by）来识别是否重复、是否需要合并。而分区和分片，影响的是数据的存储位置，在哪个集群节点、在哪个文件目录。那么最终ReplacingMergeTree表引擎在合并时，只会在当前节点、且物理位置在同一表目录下的数据进行merge操作。

最后，我们在设计表时，如果期望利用到ReplacingMergeTree自动去重的特性，那么必须使其存储在相同分区、相同分片下； 而在设置分区键、分片键时，二者不要求必须相同，但必须稳定，稳定的含义是入参相同出参必须相同。

ReplacingMergeTree 探究 1fbpfcp fbpfcp 1fbpfcp-zoom 其他数据库

有关Clickhouse表引擎探究-ReplacingMergeTree的更多相关文章

ruby - 在没有 sass 引擎的情况下使用 sass 颜色函数 - 2
我想在一个没有Sass引擎的类中使用Sass颜色函数。我已经在项目中使用了sassgem，所以我认为搭载会像以下一样简单:classRectangleincludeSass::Script::FunctionsdefcolorSass::Script::Color.new([0x82,0x39,0x06])enddefrender#hamlengineexecutedwithcontextofself#sothatwithintemlateicouldcall#%stop{offset:'0%',stop:{color:lighten(color)}}endend更新:参见上面的#re
ruby-on-rails - Rails 中的推荐引擎 - 2
我想为我的Rails网络应用程序提供推荐功能。特别是，我想向新注册的用户推荐他可能想要关注的其他用户。Rails中是否有用于此目的的引擎/gem？如果没有，我应该从哪里开始构建它？谢谢。最佳答案有Coletivogemhttps://github.com/diogenes/coletivo我试了一下。在MySQL上运行。Neo4jhttp://neo4j.org真的很容易实现一个“跟随谁”。事实上，大多数展示其能力的样本都涉及“跟随谁”。快速提示-只有在JRuby上运行时，Neo4j.rb才会很酷。如果不是-使用Neograph
世界前沿3D开发引擎HOOPS全面讲解——集3D数据读取、3D图形渲染、3D数据发布于一体的全新3D应用开发工具 - 2
无论您是想搭建桌面端、WEB端或者移动端APP应用，HOOPSPlatform组件都可以为您提供弹性的3D集成架构，同时，由工业领域3D技术专家组成的HOOPS技术团队也能为您提供技术支持服务。如果您的客户期望有一种在多个平台（桌面/WEB/APP，而且某些客户端是“瘦”客户端）快速、方便地将数据接入到3D应用系统的解决方案，并且当访问数据时，在各个平台上的性能和用户体验保持一致，HOOPSPlatform将帮助您完成。利用HOOPSPlatform，您可以开发在任何环境下的3D基础应用架构。HOOPSPlatform可以帮您打造3D创新型产品，HOOPSSDK包含的技术有：快速且准确的CAD
叮咚买菜基于 Apache Doris 统一 OLAP 引擎的应用实践 - 2
导读：随着叮咚买菜业务的发展，不同的业务场景对数据分析提出了不同的需求，他们希望引入一款实时OLAP数据库，构建一个灵活的多维实时查询和分析的平台，统一数据的接入和查询方案，解决各业务线对数据高效实时查询和精细化运营的需求。经过调研选型，最终引入ApacheDoris作为最终的OLAP分析引擎，Doris作为核心的OLAP引擎支持复杂地分析操作、提供多维的数据视图，在叮咚买菜数十个业务场景中广泛应用。作者｜叮咚买菜资深数据工程师韩青叮咚买菜创立于2017年5月，是一家专注美好食物的创业公司。叮咚买菜专注吃的事业，为满足更多人“想吃什么”而努力，通过美好食材的供应、美好滋味的开发以及美食品牌的孵
UE4 源码阅读：从引擎启动到Receive Begin Play - 2
一、引擎主循环UE版本：4.27一、引擎主循环的位置：Launch.cpp:GuardedMain函数二、、GuardedMain函数执行逻辑：1、EnginePreInit：加载大多数模块int32ErrorLevel=EnginePreInit(CmdLine);PreInit模块加载顺序：模块加载过程：（1）注册模块中定义的UObject，同时为每个类构造一个类默认对象（CDO，记录类的默认状态，作为模板用于子类实例创建）（2）调用模块的StartUpModule方法2、FEngineLoop::Init()1、检查Engine的配置文件找出使用了哪一个GameEngine类（UGame
ruby-on-rails - lovdbyless VS 社区引擎……哪个最好？ - 2
随着ruby被引入为新的编程救世主，我想知道是否有人基于易用性、运行所需的资源、可用性和易定制性而有偏好。两者有更好的吗？最佳答案好吧，任何基于Rails的社交网络应用程序的比较都应该包括insoshi(http://portal.insoshi.com/)。话虽这么说，这三个都非常相似，区别在于实现细节。Lovd和Insoshi都是完整的Rails应用程序；它旨在供您将它们用作入门工具包，并使用您自己的自定义功能对其进行扩展。另一方面，CommunityEngine是一个Rails插件。这意味着您可以更轻松地向现有Rail
ruby - 如何通过Middleman安装和使用Slim模板引擎 - 2
一般来说，我是Middleman和ruby的新手。我已经安装了Ruby我已经安装了Middleman和gem以使其运行。我需要使用slim而不是默认的模板系统。所以我安装了Slimgem。Slim的网站只说我需要'slim'才能让它工作。中间人网站说我只需要在config.rb文件中添加模板引擎，但是没有给出例子...对于没有ruby背景的人来说，这没有帮助。我在git上找了几个config.rb，它们都有:require'slim'和#Setslim-langoutputstyleSlim::Engine.set_default_options:pretty=>true#Se
python - Ruby 或 Python 的 3d 游戏引擎？ - 2
关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。要求我们推荐或查找工具、库或最喜欢的场外资源的问题对于StackOverflow来说是偏离主题的，因为它们往往会吸引自以为是的答案和垃圾邮件。相反，describetheproblem以及迄今为止为解决该问题所做的工作。关闭9年前。Improvethisquestion是否有适用于这些的3d游戏引擎？
ruby-on-rails - Rails 3 引擎和代码在开发模式下重新加载 - 2
我有一个Rails3引擎。在初始化程序中，它需要来自某个文件夹的一堆文件。在这个文件中，我引擎的用户定义了代码、业务逻辑、配置引擎等。所有这些数据都静态存储在我的引擎主模块中(在应用程序属性中)moduleMyEngineclass我希望在开发模式下根据每个请求重新加载这些文件。(这样用户就不必重新加载服务器来查看他刚刚所做的更改)当然我可以做这样的事情而不是初始化config.to_preparedoMyEngine.application.clear!load('some/file')end但是这样我会遇到问题(因为这个文件中定义的常量不会真正被重新加载)。理想的解决方案是让我的整
python - 为什么某些正则表达式引擎会在单个输入字符串中匹配 .* 两次？ - 2
许多正则表达式引擎在单行字符串中匹配.*两次，例如，在执行基于正则表达式的字符串替换时:根据定义，第一个匹配项是整个(单行)字符串，正如预期的那样。在许多引擎中有第二个匹配项，即空字符串；也就是说，即使第一个匹配项消耗了整个输入字符串，.*仍会再次匹配，然后匹配输入字符串末尾的空字符串。注意:要确保只找到一个匹配项，请使用^.*我的问题是:这种行为有充分的理由吗？一旦输入字符串被完全使用，我不希望再次尝试找到匹配项。除了反复试验之外，您能否从支持的文档/正则表达式方言/标准中收集到哪些引擎表现出这种行为？更新:revo'shelpfulanswer解释当前行为的方式；至于潜在的原因，请