草庐IT

hive静态分区和动态分区

斑马! 2023-09-13 原文

目录

一:静态分区和动态分区介绍

二:静态分区和动态分区区别

三:样例

四:动态分区参数


一:静态分区和动态分区介绍

1、静态分区与动态分区的主要区别在于静态分区是手动指定,而动态分区是通过数据来进行判断。详细来说,静态分区的列实在编译时期,通过用户传递来决定的;动态分区只有在SQL执行时才能决定。

  • 静态分区:分区是指定的一个固定值

  • 动态分区:分区根据读入的值动态写(可理解为变量形式)

  • 静态分区的表不能被加到动态分区里,可以增加新的分区但是只对后来加入的新数据有意义,已经写入数仓的文件不能被重新分区了,只能重写!

2、Hive分区是在创建表的时候用Partitioned by 关键字定义的,但要注意,Partitioned by子句中定义的列是表中正式的列,但是Hive下的数据文件中并不包含这些列,因为它们是目录名。

  • 注意,动态分区不允许主分区采用动态列而副分区采用静态列,这样将导致所有的主分区都要创建副分区静态列所定义的分区:

  • 可以理解为主分区为一个目录,然后在主分区的目录里面又创建了一个目录,且主分区的一个目录下只有一个目录,理解为多此一举

二:静态分区和动态分区区别

比如要新建一个增量表(inc),也不需要回刷数据,只涉及到一天的数据,那么选择静态分区,每天一个分区就好,新建的时候选择pt_dt作为分区键,进行分区设计;

比如要新建一个增量表(inc),需要回刷数据,例如回刷过去八天数据,那么就需要选择动态分区,还是每天一个分区,新建的时候选择pt_dt作为分区键,进行分区设计;

1)也就是说静态分区和动态分区与每天一个分区没有任何关系,只是与insert时候有关系

2)INSERT OVERWRITE TABLE `$target.table` PARTITION(pt_dt = '${当天}') 静态分区写pt_dt = '${当天}',动态分区写‘时间字段的变量/pt_dt'。

3)静态分区每天插入一天数据,动态分区每天插入对应的多天数据

PARTITION(pt_dt = %%%)按照该字段值进行分区

4)不论是动态还是静态分区,都支持insert overwrite(覆盖写)、insert into(追加写)

5)写入分区仅仅包括两个操作,更新分区的<元数据>和其对应的<数据文件>,如果分区已经存在了,则不会再重新创建该分区了,仅仅更新数据文件

三:样例

1)静态写分区

        a.定义:select过滤出来的数据写入sql中显示指定的分区值中。例如下面的例子,将test.source中20180816号的数据全部写入test.target的20180817这一天的分区中

        b.适用场景:select出来的数据要写入某一个分区中。

2)动态写分区

        a.定义:select出来的数据基于分区字段的不同值 动态的写入到对应的分区中。例如下面的例子,将test.source中20180816号和20180817的数据 分别写入test.target的dt=20180816和dt=20180817的分区中

        b.适用场景:select出来的数据要写入多个分区中

四:动态分区参数

参数

默认值

说明

注意

hive.exec.

dynamic.partition

false

是否打开动态分区

动态写分区时候要开启

hive.exec.dynamic.

、partition.mode

strict

打开动态分区后,动态分区的模式,有 strict 和 nonstrict 两个值可选

strict 要求至少包含一个静态分区列,nonstrict 则无此要求。

动态写分区时候要开启

hive.exec.max.

dynamic.partitions

1000

所允许写出的最大的动态分区的个数的总和

如果最后写出的总的分区数量大于此值,建议适当增大。

例如,重导一个按照日期分区的分区表,且重导3年数据,最后会写出

365*3个分区,可以增大到2000(因为>365*3个分区)

hive.exec.max.dynamic.

partitions.pernode

150

每个reducer可以写出的最大的动态分区数量

该参数值被限制了,无法更改

每写一个分区对应写一个hdfs文件

如果不限制,会导致同一时段集群写操作过多

影响集群稳定性

hive.exec.default.partition.name

__HIVE_DEFAULT

_PARTITION__

默认的动态分区的名称,当动态分区值为''或者null或者无法解析时,使用此名称。

有关hive静态分区和动态分区的更多相关文章

  1. Ruby rpartition 与分区? - 2

    rpartition和partition有什么区别?我已经阅读了文档,但我认为它们是一样的。只是那些出现在后来的ruby​​版本中吗? 最佳答案 以下示例将有助于识别差异:"abccba".partition("b")#=>["a","b","ccba"]"abccba".rpartition("b")#=>["abcc","b","a"]所以区别在于rpartition搜索最右边的匹配项,而不是最左边的匹配项。 关于Rubyrpartition与分区?,我们在StackOverflow

  2. Hive SQL 五大经典面试题 - 2

    目录第1题连续问题分析:解法:第2题分组问题分析:解法:第3题间隔连续问题分析:解法:第4题打折日期交叉问题分析:解法:第5题同时在线问题分析:解法:第1题连续问题如下数据为蚂蚁森林中用户领取的减少碳排放量iddtlowcarbon10012021-12-1212310022021-12-124510012021-12-134310012021-12-134510012021-12-132310022021-12-144510012021-12-1423010022021-12-154510012021-12-1523.......找出连续3天及以上减少碳排放量在100以上的用户分析:遇到这类

  3. ruby - 在 Ruby 中动态创建数组 - 2

    有没有办法在Ruby中动态创建数组?例如,假设我想遍历用户输入的书籍数组:books=gets.chomp用户输入:"TheGreatGatsby,CrimeandPunishment,Dracula,Fahrenheit451,PrideandPrejudice,SenseandSensibility,Slaughterhouse-Five,TheAdventuresofHuckleberryFinn"我把它变成一个数组:books_array=books.split(",")现在,对于用户输入的每一本书,我想用Ruby创建一个数组。伪代码来做到这一点:x=0books_array.

  4. ruby - 是否可以将 IRB 提示配置为动态更改? - 2

    我想在IRB中浏览文件系统并让提示更改以反射(reflect)当前工作目录,但我不知道如何在每个命令后进行提示更新。最终,我想在日常工作中更多地使用IRB,让bash溜走。我在我的.irbrc中试过这个:require'fileutils'includeFileUtilsIRB.conf[:PROMPT][:CUSTOM]={:PROMPT_N=>"\e[1m:\e[m",:PROMPT_I=>"\e[1m#{pwd}>\e[m",:PROMPT_S=>"FOO",:PROMPT_C=>"\e[1m#{pwd}>\e[m",:RETURN=>""}IRB.conf[:PROMPT_MO

  5. ruby-on-rails - carrierwave:在序列化动态属性上安装 uploader - 2

    首先,我使用的是rails3.1.3和来自master的carrierwavegithub仓库的分支。我使用after_init钩子(Hook)来确定基于属性的字段页面模型实例并为这些字段定义属性访问器将值存储在序列化哈希中(希望它清楚我是什么谈论)。这是我正在做的事情的精简版:classPage省略mount_uploader命令让我可以访问我想要的属性。但是当我安装uploader时出现错误消息说“nil类的未定义新方法”我在源代码中读到有方法read_uploader和扩展模块中的write_uploader。我如何必须覆盖这些来制作mount_uploader命令使用我的“虚拟

  6. ruby - 在 Ruby 中动态生成多维数组 - 2

    我正在尝试动态构建一个多维数组。我想要的基本上是这样的(为简单起见写出来):b=0test=[[]]test[b]这给了我错误:NoMethodError:undefinedmethod`test=[[],[],[]]而且它工作正常,但在我的实际使用中,我不会事先知道需要多少个数组。有一个更好的方法吗?谢谢 最佳答案 不需要像您正在使用的索引变量。只需将每个数组附加到您的test数组:irb>test=[]=>[]irb>test[["a","b","c"]]irb>test[["a","b","c"],["d","e","f"]]

  7. ruby-on-rails - 使用 gmaps4rails 动态加载谷歌地图标记 - 2

    如何只加载map边界内的标记gmaps4rails?当然,在平移和/或缩放后加载新的。与此直接相关的是,如何获取map的当前边界和缩放级别? 最佳答案 我是这样做的,我只在用户完成平移或缩放后替换标记,如果您需要不同的行为,请使用不同的事件监听器:在你看来(index.html.erb):{"zoom"=>15,"auto_adjust"=>false,"detect_location"=>true,"center_on_user"=>true}},false,true)%>在View的底部添加:functiongmaps4rail

  8. ruby - 动态方法链? - 2

    如何在对象上调用方法名称的嵌套哈希?例如,给定以下哈希:hash={:a=>{:b=>{:c=>:d}}}我想创建一个方法,给定上面的散列,执行以下操作:object.send(:a).send(:b).send(:c).send(:d)我的想法是我需要从一个未知的关联中获取一个特定的属性(这个方法不知道,但程序员知道)。我希望能够指定一个方法链来以嵌套哈希的形式检索该属性。例如:hash={:manufacturer=>{:addresses=>{:first=>:postal_code}}}car.execute_method_hash(hash)=>90210

  9. ruby - 如何使用 method_missing 动态声明方法? - 2

    我有一个ruby​​程序,我想接受用户创建的方法,并使用该名称创建一个新方法。我试过这个:defmethod_missing(meth,*args,&block)name=meth.to_sclass我收到以下错误:`define_method':interningemptystring(ArgumentError)in'method_missing'有什么想法吗?谢谢。编辑:我以不同的方式让它工作,但我仍然很好奇如何以这种方式做到这一点。这是我的代码:defmethod_missing(meth,*args,&block)Adder.class_evaldodefine_method

  10. ruby - 动态扩展现有方法或覆盖 ruby​​ 中的发送方法 - 2

    假设我们有A、B、C类。Adefself.inherited(sub)#metaprogramminggoeshere#takeclassthathasjustinheritedclassA#andforfooclassesinjectprepare_foo()as#firstlineofmethodthenrunrestofthecodeenddefprepare_foo#=>prepare_foo()neededhere#somecodeendendBprepare_foo()neededhere#somecodeendend如您所见,我正在尝试将foo_prepare()调用注入

随机推荐