hadoop - Hive 中分区表的用途是什么？

coder 2024-01-09 原文

我知道分区表用于水平分配负载，但它们的具体用途是什么？谁能用一个简单的例子向我解释一下？

最佳答案

分区允许 Hive 访问您的数据子集，而无需读取所有数据。这是为什么这可能有用的具体示例。为了使这一点易于理解，我的解释非常精简，如果您想要的不仅仅是我试图提供的表面层面的理解，我建议您阅读其他地方的 Hive 分区。

您正在以每天 ~1TB 的速率接收带时间戳的数据。您有 100 天前的数据，总数据负载为 ~100TB。很多时候，您希望汇总过去 10 天的一些数据。如果不进行分区，您将不得不读入所有 100TB 数据，尽管其中大部分数据无论如何都会被 Hive 忽略，因为它与您的过滤器日期不匹配(在您的 WHERE 子句中)。如果按日期分区，Hive 会将每天的数据分成 block ，每个 block 有 ~1TBGB。 Hive 查看您的 WHERE 子句并提前确定哪些分区将通过过滤器并仅处理该数据。在这种情况下，我们只需查看 10TB 的数据，这将大大减少我们对集群资源的使用并增加作业完成时间。现在，即使我们拥有总计 1PB 的 1000 天数据，我们仍然只需要查看 10TB 的数据。

在实践中，许多 Hive 查询只关心总数据量中定义明确的子集是很常见的。想一想您经常在 WHERE 子句中为哪些列指定范围(或单个特定值)。您甚至可以在多列上进行分区。例如，如果我们有一个包含 10 种可能颜色的颜色列，并且每种颜色每天负责大约 100GB 的数据，我们可能会另外根据颜色进行分区。那么如果我们只关心过去10天的红色数据，我们只需要处理1TB的数据。

注意不要过度分区。从我的日期示例中，您可能会认为，如果按日期分区很好，则按时间戳分区到秒会更好。这在理论上允许您只提取您关心的行。但是，如果这样做，您的分区最终会变得非常小，并且 Hive 无法很好地处理非常小的文件。在太多列上进行分区也存在同样的问题。另一件需要注意的事情是你的数据在你分区的列上的分布情况。如果您的数据中 90% 的颜色为 black，9% 的数据为 red，其余 1% 分配给其他 8 种颜色，那么您将拥有大量数据和一些不理想的小分区。

分区还有其他一些好处，例如减小基础数据的文件大小。这是通过将该列从支持表的文件中取出并将该列的值放入包含该分区的文件夹中来实现的。

从阅读您的问题来看，您似乎在寻找有关分区表的答案。托管表与外部表是一个完全独立的问题，应该有自己的问题。

关于hadoop - Hive 中分区表的用途是什么？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/19563259/

用途 hadoop code 的 section hive

有关hadoop - Hive 中分区表的用途是什么？的更多相关文章

ruby - 为什么我可以在 Ruby 中使用 Object#send 访问私有(private)/ protected 方法？ - 2
类classAprivatedeffooputs:fooendpublicdefbarputs:barendprivatedefzimputs:zimendprotecteddefdibputs:dibendendA的实例a=A.new测试a.foorescueputs:faila.barrescueputs:faila.zimrescueputs:faila.dibrescueputs:faila.gazrescueputs:fail测试输出failbarfailfailfail.发送测试[:foo,:bar,:zim,:dib,:gaz].each{|m|a.send(m)resc
ruby-on-rails - Rails - 子类化模型的设计模式是什么？ - 2
我有一个模型:classItem项目有一个属性“商店”基于存储的值，我希望Item对象对特定方法具有不同的行为。Rails中是否有针对此的通用设计模式？如果方法中没有大的if-else语句，这是如何干净利落地完成的？最佳答案通常通过Single-TableInheritance. 关于ruby-on-rails-Rails-子类化模型的设计模式是什么？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.co
ruby - 什么是填充的 Base64 编码字符串以及如何在 ruby 中生成它们？ - 2
我正在使用的第三方API的文档状态:"[O]urAPIonlyacceptspaddedBase64encodedstrings."什么是“填充的Base64编码字符串”以及如何在Ruby中生成它们。下面的代码是我第一次尝试创建转换为Base64的JSON格式数据。xa=Base64.encode64(a.to_json) 最佳答案他们说的padding其实就是Base64本身的一部分。它是末尾的“=”和“==”。Base64将3个字节的数据包编码为4个编码字符。所以如果你的输入数据有长度n和n%3=1=>"=="末尾用于填充n%
ruby - 解析 RDFa、微数据等的最佳方式是什么，使用统一的模式/词汇(例如 schema.org)存储和显示信息 - 2
我主要使用Ruby来执行此操作，但到目前为止我的攻击计划如下:使用gemsrdf、rdf-rdfa和rdf-microdata或mida来解析给定任何URI的数据。我认为最好映射到像schema.org这样的统一模式，例如使用这个yaml文件，它试图描述数据词汇表和opengraph到schema.org之间的转换:#SchemaXtoschema.orgconversion#data-vocabularyDV:name:namestreet-address:streetAddressregion:addressRegionlocality:addressLocalityphoto:i
ruby - 为什么 4.1%2 使用 Ruby 返回 0.0999999999999996？但是 4.2%2==0.2 - 2
为什么4.1%2返回0.0999999999999996？但是4.2%2==0.2。最佳答案参见此处:WhatEveryProgrammerShouldKnowAboutFloating-PointArithmetic实数是无限的。计算机使用的位数有限(今天是32位、64位)。因此计算机进行的浮点运算不能代表所有的实数。0.1是这些数字之一。请注意，这不是与Ruby相关的问题，而是与所有编程语言相关的问题，因为它来自计算机表示实数的方式。关于ruby-为什么4.1%2使用Ruby返
ruby - ruby 中的 TOPLEVEL_BINDING 是什么？ - 2
它不等于主线程的binding，这个toplevel作用域是什么？此作用域与主线程中的binding有何不同？>ruby-e'putsTOPLEVEL_BINDING===binding'false 最佳答案事实是，TOPLEVEL_BINDING始终引用Binding的预定义全局实例，而Kernel#binding创建的新实例>Binding每次封装当前执行上下文。在顶层，它们都包含相同的绑定(bind)，但它们不是同一个对象，您无法使用==或===测试它们的绑定(bind)相等性。putsTOPLEVEL_BINDINGput
ruby - Infinity 和 NaN 的类型是什么？ - 2
我可以得到Infinity和NaNn=9.0/0#=>Infinityn.class#=>Floatm=0/0.0#=>NaNm.class#=>Float但是当我想直接访问Infinity或NaN时:Infinity#=>uninitializedconstantInfinity(NameError)NaN#=>uninitializedconstantNaN(NameError)什么是Infinity和NaN？它们是对象、关键字还是其他东西？最佳答案您看到打印为Infinity和NaN的只是Float类的两个特殊实例的字符串
ruby-on-rails - 如果 Object::try 被发送到一个 nil 对象，为什么它会起作用？ - 2
如果您尝试在Ruby中的nil对象上调用方法，则会出现NoMethodError异常并显示消息:"undefinedmethod‘...’fornil:NilClass"然而，有一个tryRails中的方法，如果它被发送到一个nil对象，它只返回nil:require'rubygems'require'active_support/all'nil.try(:nonexisting_method)#noNoMethodErrorexceptionanymore那么try如何在内部工作以防止该异常？最佳答案像Ruby中的所有其他对象
ruby - 为什么 SecureRandom.uuid 创建一个唯一的字符串？ - 2
关闭。这个问题需要detailsorclarity.它目前不接受答案。想改进这个问题吗？通过editingthispost添加细节并澄清问题.关闭8年前。Improvethisquestion为什么SecureRandom.uuid创建一个唯一的字符串？SecureRandom.uuid#=>"35cb4e30-54e1-49f9-b5ce-4134799eb2c0"SecureRandom.uuid方法创建的字符串从不重复？
Ruby rpartition 与分区？ - 2
rpartition和partition有什么区别？我已经阅读了文档，但我认为它们是一样的。只是那些出现在后来的ruby版本中吗？最佳答案以下示例将有助于识别差异:"abccba".partition("b")#=>["a","b","ccba"]"abccba".rpartition("b")#=>["abcc","b","a"]所以区别在于rpartition搜索最右边的匹配项，而不是最左边的匹配项。关于Rubyrpartition与分区？，我们在StackOverflow

hadoop - Hive 中分区表的用途是什么？

有关hadoop - Hive 中分区表的用途是什么？的更多相关文章

随机推荐