hadoop - hive 如何处理插入内部分区表？

coder 2024-01-06 原文

我需要将记录流插入到 Hive 分区表中。表结构是这样的

CREATE TABLE store_transation (
     item_name string,
     item_count int,
     bill_number int,
) PARTITIONED BY (
   yyyy_mm_dd string
);

我想了解 Hive 如何处理内部表中的插入。

是否所有记录都插入到单个文件中 yyyy_mm_dd=2018_08_31目录？或者 Hive 在一个分区内拆分为多个文件，如果是什么时候？

如果每天有 100 万条记录并且查询模式将在日期范围之间，那么以下哪一个表现良好？

内表没有分区
按日期划分，每个日期只有一个文件
按日期划分，每个日期有多个文件

最佳答案

Insert 将在所有情况下执行相同的操作，因为 insert 不会查询现有数据(除非您使用 select from itself 插入)并且通常每个容器都会创建自己的文件，除非配置了文件合并。

如果表按日期分区，则使用日期范围查询数据会执行得更好。文件太多可能会导致性能下降，因此您可能希望在插入期间合并文件。什么是文件太多？就像每个每日分区数百甚至数千。每个分区只有几个文件不会导致性能问题，您不需要合并它们。

Insert 语句将在分区目录中创建附加文件，并且通常不会与现有文件合并。将创建多少文件取决于插入语句和配置设置。

最终运行的映射器或缩减器的数量+配置设置将决定输出文件的数量。您可以通过例如添加“order by”子句来强制它在单个 reducer 上运行。在这种情况下，每个分区将创建一个额外的文件，但它会运行缓慢。此外，distribute by partition key 可用于减少创建的文件数量，但这会触发额外的 reducer 阶段，并且会比 map-only 任务运行得更慢。

您还可以使用这些设置将新文件与现有文件合并:

SET hive.merge.mapfiles=true;
SET hive.merge.mapredfiles=true;
SET hive.merge.size.per.task=128000000; -- (128MB)
SET hive.merge.smallfiles.avgsize=128000000; -- (128MB)

这些配置设置可能会在最后触发合并任务(取决于上述设置中配置的大小)，它将合并现有文件以及插入新添加的文件。

有关合并的更多详细信息，请参阅此答案:https://stackoverflow.com/a/45266244/2700344

实际上，表的类型，托管的还是外部的，在这种情况下并不重要。插入或选择将工作相同。

如果你已经有与目标表相同格式的文件，那么最快的方法是将它们放在分区目录中，根本不使用 DML 查询。

对于 ORC 文件，您可以使用以下命令有效地合并文件:ALTER TABLE T [PARTITION partition_spec] CONCATENATE;

关于hadoop - hive 如何处理插入内部分区表？，我们在Stack Overflow上找到一个类似的问题： https://stackoverflow.com/questions/52035062/

何处 hadoop section code stackoverflow hive hdfs hiveql hive-partitions

有关hadoop - hive 如何处理插入内部分区表？的更多相关文章

ruby-on-rails - Enumerator.new 如何处理已通过的 block ？ - 2
我在理解Enumerator.new方法的工作原理时遇到了一些困难。假设文档中的示例:fib=Enumerator.newdo|y|a=b=1loopdoy[1,1,2,3,5,8,13,21,34,55]循环中断条件在哪里，它如何知道循环应该迭代多少次(因为它没有任何明确的中断条件并且看起来像无限循环)？最佳答案 Enumerator使用Fibers在内部。您的示例等效于:require'fiber'fiber=Fiber.newdoa=b=1loopdoFiber.yieldaa,b=b,a+bendend10.times.m
Ruby rpartition 与分区？ - 2
rpartition和partition有什么区别？我已经阅读了文档，但我认为它们是一样的。只是那些出现在后来的ruby版本中吗？最佳答案以下示例将有助于识别差异:"abccba".partition("b")#=>["a","b","ccba"]"abccba".rpartition("b")#=>["abcc","b","a"]所以区别在于rpartition搜索最右边的匹配项，而不是最左边的匹配项。关于Rubyrpartition与分区？，我们在StackOverflow
hadoop安装之保姆级教程（二）之YARN的配置 - 2
1.1.1 YARN的介绍为克服Hadoop1.0中HDFS和MapReduce存在的各种问题⽽提出的，针对Hadoop1.0中的MapReduce在扩展性和多框架⽀持⽅⾯的不⾜，提出了全新的资源管理框架YARN. ApacheYARN（YetanotherResourceNegotiator的缩写）是Hadoop集群的资源管理系统，负责为计算程序提供服务器计算资源，相当于⼀个分布式的操作系统平台，⽽MapReduce等计算程序则相当于运⾏于操作系统之上的应⽤程序。 YARN被引⼊Hadoop2,最初是为了改善MapReduce的实现，但是因为具有⾜够的通⽤性，同样可以⽀持其他的分布式计算模
Hive SQL 五大经典面试题 - 2
目录第1题连续问题分析：解法：第2题分组问题分析：解法：第3题间隔连续问题分析：解法：第4题打折日期交叉问题分析：解法：第5题同时在线问题分析：解法：第1题连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量iddtlowcarbon10012021-12-1212310022021-12-124510012021-12-134310012021-12-134510012021-12-132310022021-12-144510012021-12-1423010022021-12-154510012021-12-1523.......找出连续3天及以上减少碳排放量在100以上的用户分析：遇到这类
ruby-on-rails - 如何处理 Grape 中特定操作的过滤器之前？ - 2
我正在我的Rails项目中安装Grape以构建RESTfulAPI。现在一些端点的操作需要身份验证，而另一些则不需要身份验证。例如，我有users端点，看起来像这样:moduleBackendmoduleV1classUsers现在如您所见，除了password/forget之外的所有操作都需要用户登录/验证。创建一个新的端点也没有意义，比如passwords并且只是删除password/forget从逻辑上讲，这个端点应该与用户资源。问题是Grapebefore过滤器没有像except,only这样的选项，我可以在其中说对某些操作应用过滤器。您通常如何干净利落地处理这种情况？
Ruby - 如何处理子类意外覆盖父类(super class)私有(private)字段的问题？ - 2
假设您编写了一个类Sup，我决定将其扩展为SubSup。我不仅需要了解你发布的接口(interface)，还需要了解你的私有(private)字段。见证这次失败:classSupdefinitialize@privateField="fromsup"enddefgetXreturn@privateFieldendendclassSub问题是，解决这个问题的正确方法是什么？看起来子类应该能够使用它想要的任何字段而不会弄乱父类(superclass)。编辑:equivalentexampleinJava返回"fromSup"，这也是它应该产生的答案。最佳答案
ruby - 如何在 Ruby 字符串中插入项目符号字符？ - 2
我正在尝试创建一个带有项目符号字符的Ruby1.9.3字符串。str="•"+"helloworld"但是，当我输入它时，我收到有关非ASCII字符的语法错误。我该怎么做？最佳答案你可以把Unicode字符放在那里。str="\u2022"+"helloworld" 关于ruby-如何在Ruby字符串中插入项目符号字符？，我们在StackOverflow上找到一个类似的问题： https://stackoverflow.com/questions/1195
ruby - 是否可以从也在该模块中的类内部调用模块函数 - 2
在这段Ruby代码中:ModuleMClassC当我尝试运行时出现“'M:Module'的未定义方法'helper'”错误c=M::C.new("world")c.work但直接从另一个类调用M::helper("world")工作正常。类不能调用在定义它们的同一模块中定义的模块函数吗？除了将类移出模块外，还有其他解决方法吗？最佳答案为了调用M::helper，你需要将它定义为defself.helper;结束为了进行比较，请查看以下修改后的代码段中的helper和helper2moduleMclassC
ruby - 在 ruby 中使用自动创建插入数组 - 2
我想知道是否可以通过自动创建数组来插入数组，如果数组不存在的话，就像在PHP中一样:$toto[]='titi';如果尚未定义$toto，它将创建数组并将“titi”压入。如果已经存在，它只会推送。在Ruby中我必须这样做:toto||=[]toto.push('titi')可以一行完成吗？因为如果我有一个循环，它会测试“||=”，除了第一次:Person.all.eachdo|person|toto||=[]#with1billionofperson,thislineisuseless999999999times...toto.push(person.name)你有更好的解决方案吗？
ruby - 无法安装 gem - make 未被识别为内部或外部命令可运行程序或批处理文件 - 2
我想在Windows7上安装带有ruby1.9.3的rspec-railsgem。我收到一些错误消息，提示无法安装某些json库。所以，我使用下面的说明来解决它。来源=The'json'nativegemrequiresinstalledbuildtools从[rubyinstaller.org][3]下载[Ruby1.9.3][2]从[rubyinstaller.org][3]下载DevKit文件对于Ruby1.9.3，使用[DevKit-tdm-32-4.5.2-20110712-1620-sfx.exe][4]将DevKit解压到路径C:\Ruby193\DevKit运行cd

hadoop - hive 如何处理插入内部分区表？

有关hadoop - hive 如何处理插入内部分区表？的更多相关文章

随机推荐