草庐IT

ClickHouse与Hive的区别,终于有人讲明白了

陈峰 2023-03-28 原文

一、Hive的数据文件

和ClickHouse不同,由于Hive本身并不存储数据,而是为HDFS上的文件赋予数据库表、列的语义,保存对应的元数据供查询时使用,因此Hive的数据文件存在多种类型

1、textfile

textfile(文本文件)是Hive中默认的数据文件,是一类基于纯文本的数据文件格式。在大数据时代之前的CSV、TSV都属于该类文件。这类文件的特点如下。

  • 按行存储,文件内的一个物理行对应数据表中的一行数据。
  • 行内以特殊的符号分列。
  • 纯文本保存,不需要特殊解编码器即可识别。
  • 受限于纯文本表现力的限制,复杂类型可能需要额外的信息才能正确解析(即单独的数据文件不足以保存所有信息),例如日期等。
  • 默认情况下无压缩。
文本文件由于其按行存储的特性,导致其在Spark中是性能最差的一种数据文件格式。文本文件通常由业务侧的程序直接生成,且在业务侧被大量使用。因此Hive默认情况下使用文本文件作为数据文件的存储格式,保证这些文本文件在导入大数据系统后可以不用转换而直接被Hive识别和处理。

2、Apache ORC

Apache ORC(Optimized Row Columnar,优化行列式)是Hive中一种列式存储的数据文件格式,ORC在textfile的基础上进行了大量的修改以优化大数据场景下的查询性能,ORC的主要特点如下。

  • 按列存储。
  • 二进制存储,自描述。
  • 包含稀疏索引。
  • 支持数据压缩。
  • 支持ACID事务。

3、Parquet

Hadoop Parquet是Hadoop生态中的一种语言无关的,不与任何数据计算框架绑定的新型列式存储格式。Parquet可以兼容多种计算框架和计算引擎,由于其优秀的兼容性,在生产中被大量使用。其主要特点如下。

  • 按列存储。
  • 二进制存储,自描述。
  • 包含稀疏索引。
  • 支持数据压缩。
  • 语言独立、平台独立、计算框架独立。

4、Parquet与ORC

Parquet和ORC格式有着很多的相同点,那么在使用时应当如何选择呢?

(1)  原则一:希望平台独立,更好的兼容性,选择Parquet

Parquet在设计时考虑了通用性,如果希望进行联邦查询或为了将数据文件交给其他计算引擎使用,那么应该选择Parquet。

(2)  原则二:数据量庞大,希望获得最强的查询性能,选择ORC

ORC针对HDFS进行了针对性的优化,当数据非常庞大且需对查询性能有要求时,务必选择ORC格式。ORC在大数据量下的性能一定强于Parquet,大量的实验证明了这一点。因此本书后续的性能比较都是基于ORC格式的Hive。

ORC的设计原则和ClickHouse类似,都是存储服务于计算的典范。这也提现了性能和通用性不可兼得。再次强调,架构设计没有银弹,有得必有失。不要试图设计各方面都优秀的架构,即使是Parquet,也为了通用性放弃了性能。

二、Hive的存储系统

Hive本身不提供存储,其数据都存储于HDFS(Hadoop Distribution File System,Hadoop分布式文件系统)上。HDFS是大数据中专用的分布式文件系统,专为大数据处理而设计。

三、Hive计算引擎与ClickHouse计算引擎的差异

Hive本身并不提供计算引擎,而是使用Hadoop生态的MapReduce或Spark实现计算。由于Spark更高层次的抽象,使得Spark的计算引擎的性能远高于MapReduce。两者之间的区别如下:

1、运行模式不同

ClickHouse是MPP架构,强调充分发挥单机性能,没有真正的分布式表,ClickHouse的分布式表只是本地表的代理,对分布式表的查询都会被转换为对本地表的查询。这导致ClickHouse在执行部分大表join时可能出现资源不足的情况。

Hive的数据存储于分布式文件系统,因此Hive的计算引擎Spark在执行计算任务时,需要依据数据分布进行调度。在必要时,Spark可以通过CBO将数据重新排序后再分散到多台机器执行,以实现复杂的查询。

ClickHouse适合简单的DW之上的即席查询。而Spark由于其分布式特性,导致其任务启动时间很长,因此不适合实现即席查询,但是对于大数据量的join等复杂查询时具备非常大的优势。

2、优化重点不同

ClickHouse的优化重点在如何提高单机的处理能力,而Spark的优化重点在于如何提高分布式的协作效率。

四、ClickHouse比Hive快的原因

需要再次强调的是,ClickHouse只是在DW即席查询场景下比Hive快,并没有在所有场景都比Spark快,详细的分析请参考第5章。本节对比的是,当ClickHouse和Hive都进行即席查询,ClickHouse比Hive快的原因。

1、严格数据组织更适合做分析

ClickHouse的数据组织相对于Hive更严格,需要用户在建表时制定排序键进行预排序。虽然Hive的ORC格式和ClickHouse的数据文件其实一定程度上是等价的,但是Hive的ORC格式并不要求数据存储前进行预排序。

在预排序的情况下,数据在写入物理存储时已经按照一定的规律进行了聚集,在理想条件下可以大幅度降低I/O时间,避免数据的遍历。Hive的ORC格式在这一块并没有严格要求,因此ORC的存储就已经比ClickHouse消耗更多的I/O来遍历数据了。而ClickHouse却可以通过实现预排序好的数据和良好的索引,直接定位到对应的数据,节省了大量的I/O时间。

2、更简单的调度

ClickHouse目的在于压榨单机性能,并没有真正的分布式表,数据都在本地,这也使得ClickHouse不需要复杂的调度,直接在本机执行SQL即可。而Hive的数据都在HDFS上,在真正任务前需要依据数据分布确定更复杂的物理计划,然后将Spark程序调度到对应的Data Node上,调度的过程非常消耗时间。

关于作者:陈峰,资深大数据专家和架构师,ClickHouse技术专家,滴普科技(2B领域独角兽)合伙人兼首席架构师。《ClickHouse性能之巅:从架构设计解读性能之谜》作者。

有关ClickHouse与Hive的区别,终于有人讲明白了的更多相关文章

  1. ruby - 触发器 ruby​​ 中 3 点范围运算符和 2 点范围运算符的区别 - 2

    请帮助我理解范围运算符...和..之间的区别,作为Ruby中使用的“触发器”。这是PragmaticProgrammersguidetoRuby中的一个示例:a=(11..20).collect{|i|(i%4==0)..(i%3==0)?i:nil}返回:[nil,12,nil,nil,nil,16,17,18,nil,20]还有:a=(11..20).collect{|i|(i%4==0)...(i%3==0)?i:nil}返回:[nil,12,13,14,15,16,17,18,nil,20] 最佳答案 触发器(又名f/f)是

  2. ruby - 有人可以帮助解释类创建的 post_initialize 回调吗 (Sandi Metz) - 2

    我正在阅读SandiMetz的POODR,并且遇到了一个我不太了解的编码原则。这是代码:classBicycleattr_reader:size,:chain,:tire_sizedefinitialize(args={})@size=args[:size]||1@chain=args[:chain]||2@tire_size=args[:tire_size]||3post_initialize(args)endendclassMountainBike此代码将为其各自的属性输出1,2,3,4,5。我不明白的是查找方法。当一辆山地自行车被实例化时,因为它没有自己的initialize方法

  3. ruby-on-rails - `a ||= b` 和 `a = b if a.nil 之间的区别? - 2

    我正在检查一个Rails项目。在ERubyHTML模板页面上,我看到了这样几行:我不明白为什么不这样写:在这种情况下,||=和ifnil?有什么区别? 最佳答案 在这种特殊情况下没有区别,但可能是出于习惯。每当我看到nil?被使用时,它几乎总是使用不当。在Ruby中,很少有东西在逻辑上是假的,只有文字false和nil是。这意味着像if(!x.nil?)这样的代码几乎总是更好地表示为if(x)除非期望x可能是文字false。我会将其切换为||=false,因为它具有相同的结果,但这在很大程度上取决于偏好。唯一的缺点是赋值会在每次运行

  4. ruby - 这两个 Ruby 类初始化定义有什么区别? - 2

    我正在阅读一本关于Ruby的书,作者在编写类初始化定义时使用的形式与他在本书前几节中使用的形式略有不同。它看起来像这样:classTicketattr_accessor:venue,:datedefinitialize(venue,date)self.venue=venueself.date=dateendend在本书的前几节中,它的定义如下:classTicketattr_accessor:venue,:datedefinitialize(venue,date)@venue=venue@date=dateendend在第一个示例中使用setter方法与在第二个示例中使用实例变量之间是

  5. Hive SQL 五大经典面试题 - 2

    目录第1题连续问题分析:解法:第2题分组问题分析:解法:第3题间隔连续问题分析:解法:第4题打折日期交叉问题分析:解法:第5题同时在线问题分析:解法:第1题连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量iddtlowcarbon10012021-12-1212310022021-12-124510012021-12-134310012021-12-134510012021-12-132310022021-12-144510012021-12-1423010022021-12-154510012021-12-1523.......找出连续3天及以上减少碳排放量在100以上的用户分析:遇到这类

  6. spring.profiles.active和spring.profiles.include的使用及区别说明 - 2

    转自:spring.profiles.active和spring.profiles.include的使用及区别说明下文笔者讲述spring.profiles.active和spring.profiles.include的区别简介说明,如下所示我们都知道,在日常开发中,开发|测试|生产环境都拥有不同的配置信息如:jdbc地址、ip、端口等此时为了避免每次都修改全部信息,我们则可以采用以上的属性处理此类异常spring.profiles.active属性例:配置文件,可使用以下方式定义application-${profile}.properties开发环境配置文件:application-dev

  7. ruby - 这两段代码有什么区别? - 2

    打印1:defsum(i)i=i+[2]end$x=[1]sum($x)print$x打印12:defsum(i)i.push(2)end$x=[1]sum($x)print$x后者是修改全局变量$x。为什么它在第二个例子中被修改而不是在第一个例子中?类Array的任何方法(不仅是push)都会发生这种情况吗? 最佳答案 变量范围在这里无关紧要。在第一段代码中,您仅使用赋值运算符=为变量i赋值,而在第二段代码中,您正在修改$x(也称为i)使用破坏性方法push。赋值从不修改任何对象。它只是提供一个名称来引用一个对象。方法要么是破坏性

  8. ruby - Ruby 中 .next 和 .succ 的区别 - 2

    Ruby中的Fixnum方法.next和.succ有什么区别?看起来它的工作原理是一样的:1.next=>21.succ=>2如果有什么不同,为什么有两种方法做同样的事情? 最佳答案 它们是等价的。Fixnum#succ只是Fixnum#next的同义词。他们甚至在thereferencemanual中共享同一block. 关于ruby-Ruby中.next和.succ的区别,我们在StackOverflow上找到一个类似的问题: https://stacko

  9. ruby - 在参数为 `yield self` 的方法中使用 `&block` 和在没有参数 `yield self` 的方法中使用 `&block` 有什么区别吗? - 2

    我明白了defa(&block)block.call(self)end和defa()yieldselfend导致相同的结果,如果我假设有这样一个blocka{}。我的问题是-因为我偶然发现了一些这样的代码,它是否有任何区别或者是否有任何优势(如果我不使用变量/引用block):defa(&block)yieldselfend这是一个我不理解&block用法的具体案例:defrule(code,name,&block)@rules=[]if@rules.nil?@rules 最佳答案 我能想到的唯一优点就是自省(introspecti

  10. ruby - 无法理解 `puts{}.class` 和 `puts({}.class)` 之间的区别 - 2

    由于匿名block和散列block看起来大致相同。我正在玩它。我做了一些严肃的观察,如下所示:{}.class#=>Hash好的,这很酷。空block被视为Hash。print{}.class#=>NilClassputs{}.class#=>NilClass为什么上面的代码和NilClass一样,下面的代码又显示了Hash?puts({}.class)#Hash#=>nilprint({}.class)#Hash=>nil谁能帮我理解上面发生了什么?我完全不同意@Lindydancer的观点你如何解释下面几行:print{}.class#NilClassprint[].class#A

随机推荐