大数据系列——什么是ClickHouse？ClickHouse有什么用途？

多则惑少则明 2023-07-07 原文

一、什么是ClickHouse

clickHouse是俄罗斯的 Yandex 公司于 2016 年开源的列式存储数据库，使用 C++ 语言编写；

一款面向 OLAP 的数据库
ClickHouse支持类SQL语言，提供了传统关系型数据的便利

二、ClickHouse有什么用途

专门用于 OLAP（联机分析处理），其性能惊人；

什么是 OLAP? 联机分析处理，又可以称之为多维分析处理。它指的是通过多种不同的维度审视数据，进行深层次分析。

三、ClickHouse的不足

高性能面向 OLAP 的数据库，不擅长的方面：

不支持事务
不擅长根据主键按行粒度进行查询（虽然支持），所以不应该把 ClickHouse 当做键值对数据库使用
不擅长按行删除数据（虽然支持）

对于 OLAP 数据库而言，上述这些能力不是重点，只能说这是为了极致的查询性能所做的权衡。

四、适用场景

绝大多数请求都是读取访问权限。
数据以相当大的批次（> 1000行）更新，而不是单行更新; 或者它根本没有更新。
数据已添加到数据库，但未进行修改。
读取数据时，会从数据库中提取出大量的行，但只用到一小部分列列式存储
数据一致性要求较低

五、ClickHouse特点

完备的DBMS功能
列式存储和数据压缩

列式存储，在扫描指定列时，不用按行组织其他非指定列的数据，避免多余的数据扫描。

数据压缩，按照一定步长对数据进行匹配扫描，当发现重复部分的时候就进行编码转换，降低IO和存储的压力。
向量化执行引擎

简单理解就是消除程序循环的优化，堆机器加快速度，数据级并行。
关系模型与SQL查询

其他数据库迁移到CK的成本很低。

多样化的表引擎

CK的最初架构是基于MySQL实现的，表引擎设计就与MySQL类似，存储引擎作为一层独立的接口。种类繁多，根据业务场景自行选择。
多线程与分布式

多线程处理就是通过线程级并行的方式实现了性能的提升。

预先将数据分布到各台服务器，将数据的计算查询直接下推到数据所在的服务器，因为计算移动比数据移动更加划算。

多主架构

Multi-Master多主架构，集群中的每个节点角色对等，天然规避单点故障问题，适用于多数据中心、异地多活场景

在线查询，CK又快又免费

与其他分析型数据库对比，存在许多相似之处，例如都支持海量查询场景、支持列式存储、数据分片、计算下推等特效，说明CK在设计上吸取了各路优点。

价格方面：其他开源系统慢，商用系统贵。CK又快又免费。

数据分片和分布式查询

CK有本地表（Local Table）和分布式表（Distributed Table），一张本地表等同于一份数据的分片，而分布式表不存储数据，只是本地表的访问代理。

分布式表类似分库中间件，代理访问多个数据分片，实现分布式查询。

六、CH表对比

1、ClickHouse VS MySQL

MySQL单条SQL是单线程的，只能跑满一个core，ClickHouse相反，有多少CPU，吃多少资源，所以飞快；
ClickHouse不支持事务，不存在隔离级别。ClickHouse的定位是分析性数据库，而不是严格的关系型数据库。
IO方面，MySQL是行存储，ClickHouse是列存储，后者在count()这类操作天然有优势，同时，在IO方面，MySQL需要大量随机IO，ClickHouse基本是顺序IO。

2、ClickHouse VS Druid

参考：https://www.sohu.com/a/516246493_411876

在广告场景下，基于benchmark分析来看，ClickHouse会比druid有许多可取之处:

数据存储方面，ClickHouse的数据压缩和列式存储会极大节省存储空间，而druid和其他多数数据库都是基于时序的，druid在查询大范围的数据时会出现性能问题，而利用ClickHouse的分区键优化可以有效的解决这个问题
在查询方面，druid的排序，聚合能力都不太好，灵活性和扩展性也不够，比如缺少join，子查询，主键排序等这些需求。而这些用SQL都可以通过ClickHouse来支持解决。
运维成本方面，Druid的运维是非常复杂的，虽然支持多种数据摄入的组件，但是组件的构成是比较复杂的，节点数量有6种之多，而ClickHouse架构采用的是对等节点的设计，节点就有一种类型，没有主从节点。

七、类SQL 语句

1、 客户端登陆命令 ： clickhouse-client -u user --password 123456 --port 9000


2、利用system数据库中的parts_columns表进行查询。

select distinct column from system.parts_columns 
where database='表所属的数据库名称' and table='所需要查询的表名'

例如：
select distinct column from system.parts_columns where database='test' and table='table1'


3、利用system数据库中的columns表进行查询。

select distinct name from system.columns 
where database='表所属的数据库名称' and table='所需要查询的表名'

例如：
select distinct name from system.columns where database='test' and table='table1'
ps :–推荐使用第二种方式来查询表的所有列名。

4、

 alter table 表名称 ON 集群名称 add column 列名称;        --添加列
 alter table 表名称 ON 集群名称 drop column 列名称;       --删除列
 alter table 表名称 ON 集群名称 modify column 列名称 数据类型;   --修改数据类型
 alter table 表名称 ON 集群名称 COMMENT COLUMN 列名称 注解;     --修改注释

5、建表
CREATE TABLE test.table1(
    `id` String COMMENT '主键',
    `chinese_name` Nullable(String) COMMENT '中文名称',
    `english_name` Nullable(String) COMMENT '英文名称',
    `update_time` Nullable(DATETIME) COMMENT '更新时间',
    `create_time` Nullable(DATETIME) COMMENT '创建时间'
)
ENGINE = MergeTree
order by id

6、删除表
//删除本地表
DROP table ti.java4al_base on cluster ck;
//删除分布式表
DROP table ti.java4al_base_all on cluster ck;

7、删除数据： 
方法1： 删除分区 alter table  name drop partition 分区；
方法：alter 语句 ： alter table  name delete where 
ALTER TABLE <table_name> UPDATE col1 = expr1, ... WHERE <filter>
方法：
索引列不能进行更新


8、查询表容量及压缩
select
    table as "表名",
    sum(rows) as "总行数",
    formatReadableSize(sum(data_uncompressed_bytes)) as "原始大小",
    formatReadableSize(sum(data_compressed_bytes)) as "压缩大小",
    round(sum(data_compressed_bytes) / sum(data_uncompressed_bytes) * 100, 0) "压缩率"
from system.parts
    group by table;

八、核心概念

几个概念：

1、Column与Field：一列中的某一行（具体数值）用Field对象表示；一列数据用一个Column对象表现

2、DataType ：负责数据的序列化和反序列化相关工作，但是并不直接负责数据的读取，而是转由Column或Field对象获取。在DataType的实现类中，聚合了相应数据类型的Column对象和Field对象。

3、Block对象：CK的数据操作是面向Block对象进行的，并且是采用流的形式。Block=数据对象(Column/Feild) + DataType + 列名称字符串。

4、Table：

在数据表的底层设计中并没有所谓的Table对象，它直接使用 IStorage接口指代数据表。

表引擎是ClickHouse的一个显著特性，不同的表引擎由不同的子类实现，例如IStorageSystemOneBlock (系统表)、StorageMergeTree(合并树表引擎)和 StorageTinyLog(日志表引擎)等。

5、Parser和Interpreter

Parser分析器负责创建AST对象，而Interpreter解释器则负责解释AST，并进一步创建查询的执行管道。它们与IStorage一起，串联起了整个数据查询的过程。

Parser分析器可以将一条SQL语句以递归下降的方法解析成 AST语法树的形式。

不同的SQL语句，会经由不同的Parser实现类解析。

6、Functions与Aggregate Functions

普通函数，例如四则运算、日前转换、网址提取函数、IP地址脱敏函数。没有状态，函数效果作用于每行数据之上。在函数具体执行过程中，采用向量化的方式直接作用于一整列数据，而不是一行一行计算。
聚合函数，有状态的，例如COUNT聚合函数，AggregateFunctionCount的状态用整型UInt64记录。聚合函数的状态支持序列化与反序列化，所以能够在分布式节点之间进行传输，以实现增量计算。

7、Cluster与Replication

集群由分片(Shard)组成，分片由副本(Replica)组成。

CK的1个节点只能拥有一个分片，如果要实现1分片、1副本，至少需要部署两个服务节点。

分片是逻辑概念，物理承载由副本承担。

ClickHouse 大数 xff0c xff xff0 大数据

有关大数据系列——什么是ClickHouse？ClickHouse有什么用途？的更多相关文章

ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
python - 如何使用 Ruby 或 Python 创建一系列高音调和低音调的蜂鸣声？ - 2
关闭。这个问题是opinion-based.它目前不接受答案。想要改进这个问题？更新问题，以便editingthispost可以用事实和引用来回答它.关闭4年前。Improvethisquestion我想在固定时间创建一系列低音和高音调的哔哔声。例如:在150毫秒时发出高音调的蜂鸣声在151毫秒时发出低音调的蜂鸣声200毫秒时发出低音调的蜂鸣声250毫秒的高音调蜂鸣声有没有办法在Ruby或Python中做到这一点？我真的不在乎输出编码是什么(.wav、.mp3、.ogg等等)，但我确实想创建一个输出文件。
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996？但是 4.2%2==0.2 - 2
为什么4.1%2返回0.0999999999999996？但是4.2%2==0.2。最佳答案参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意，这不是与Ruby相关的问题，而是与所有编程语言相关的问题，因为它来自计算机表示实数的方式。关于ruby-为什么4.1%2使用Ruby返
ruby-on-rails - 使用一系列等级计算字母等级 - 2
这里是Ruby新手。完成一些练习后碰壁了。练习:计算一系列成绩的字母等级创建一个方法get_grade来接受测试分数数组。数组中的每个分数应介于0和100之间，其中100是最大分数。计算平均分并将字母等级作为字符串返回，即“A”、“B”、“C”、“D”、“E”或“F”。我一直返回错误:avg.rb:1:syntaxerror,unexpectedtLBRACK,expecting')'defget_grade([100,90,80])^avg.rb:1:syntaxerror,unexpected')',expecting$end这是我目前所拥有的。我想坚持使用下面的方法或.join，
ruby - ruby 中的 TOPLEVEL_BINDING 是什么？ - 2
它不等于主线程的binding，这个toplevel作用域是什么？此作用域与主线程中的binding有何不同？>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案事实是，TOPLEVEL_BINDING始终引用Binding的预定义全局实例，而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层，它们都包含相同的绑定(bind)，但它们不是同一个对象，您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput
ruby - Infinity 和 NaN 的类型是什么？ - 2
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN？它们是对象、关键字还是其他东西？最佳答案您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象，为什么它会起作用？ - 2
如果您尝试在Ruby中的nil对象上调用方法，则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而，有一个tryRails中的方法，如果它被发送到一个nil对象，它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常？最佳答案像Ruby中的所有其他对象