搞机分区_草庐IT

hadoop - 在 Hadoop 中，按日期对表进行分区是个坏主意吗？

我正在阅读罗伯托在以下帖子中给出的答案。WhatisthedifferencebetweenpartitioningandbucketingatableinHive?似乎按日期对数据进行分区(如果我的数据每天都来)不是一个好主意，因为它最终会在HDFS中创建许多目录和文件，并且会降低查询的整体性能？如果我有业务需求，需要更频繁地使用日期来查询数据，我该怎么办？最佳答案使用日期作为分区绝对没有错。事实上，它是最常用的分区值之一。每年365个额外的目录不会对集群的性能产生任何影响。至于改变文件的数量:如果你每天都在摄取数据，那么无论

hadoop - Hive 分区验证

我已经创建了一个分区的配置单元表。我将数据插入到该表中。现在假设我使用where子句执行一个select*查询，那么我如何确保hive查询正在使用分区？最佳答案假设您的HIVE数据被分成3个分区，并且每个HDFS分区包含一个不大于一个HDFSblock的文件，分区值上带有WHERE的SELECT*应该触发单个YARN映射器。请注意，此行为可能与新的HIVE引擎(如TEZ和LLAP(Hortonworks)或Impala(Cloudera))不同关于hadoop-Hive分区验证，我

hadoop Hive section code stackoverflow partitioning

hadoop - 自定义分区器以平衡 reducer 的输入

假设我的映射器输出N个键(这些键是不同的)，并且我有K个缩减器。如何编写自定义Paritioner，以便每个reducer接收大约N/K个key？哪个key接收到哪个并不重要。示例:假设我的映射器输出10对,,,...，我有3个reducer。我想要3对进入第一个Reducer，3对进入第2个，4对进入第3个，无论哪个键进入哪个reducer。我的尝试:随机分配reducer。例如，随机分配到第一个reducer，到第二个reducer，依此类推。但是仍然有reducer比其他reducer获得更多的数据我不想修改哪些键对应哪些reducer。因为键k1,k2,...k10我的映射器根

自定 reducer section 射器 hadoop mapreduce reducers partitioner

bash - 在特定作业上运行 SHell 脚本时如何从 HDFS 获取最新的有效分区日期？

我的任务是为特定的Spark作业实现所有分配的表。我需要根据要为分配给作业的所有表打印的时间戳和路径编写脚本。我需要获取与该作业关联的表关联的所有时间戳。这是我开发的脚本。#!/usr/bin/envbashJOB_NAME=${1}inputDirListings=$(awk-F:-vkey="$1"'$1==key{print$2}'test_paths.txt)fordirin$(echo$inputDirListings|tr",""\n");dopath=$direcho"diris$path"cmd2='hdfsdfs-du-h$path'ev1=`eval$cmd2|ta

定作 SHell 34 echo section bash apache-spark hadoop

sql - 从另一个表创建临时表，包括配置单元中的分区列

我正在使用AS子句从另一个表创建一个临时表，其中我将另一个表的分区列也包含在临时表中，然后出现以下错误。下面是表创建语句，其中col4是表xyz的分区列。并且在运行创建语句时出现以下错误。当我从create语句中删除col4时，它运行良好。错误:Errorwhilecompilingstatement:FAILED:NumberFormatExceptionForinputstring:"HIVE_DEFAULT_PARTITION"(state=42000,code=40000)请帮忙。示例:CREATETEMPORARYTABLEabcSTOREDASPARQUETASSELECT

配置单 sql code section HIVE_DEFAULT_PARTITION hadoop hive hiveql partition

apache-spark - 重新分区以避免大量小文件

目前我有一个ETL作业，它读取几个表，执行某些转换并将它们写回每日表。我在sparksql中使用以下查询“插入dbname.tablenamePARTITION(year_month)从Spark_temp_table中选择*插入所有这些记录的目标表按年X月级别分区。每天生成的记录并不多，因此我按年X月级别进行分区。但是，当我检查分区时，我的代码每天运行时它都有约50MB的小文件(代码必须每天运行)，最终我的分区中将有大约30个文件，总计约1500MB我想知道是否有办法在我每天追加记录的同时在一个分区中创建一个(或者根据block大小限制可能创建2-3个文件)我认为我能做到的方法是从我

apache-spark apache section code DISTRIBUTE hadoop apache-spark-sql pyspark-sql

sql - Hive-我如何使用原始表中的分区 "create table as select.."？

我需要从我们的配置单元dlk创建一个“工作表”。虽然我可以使用:createtablemy_tableasselect*fromdlk.big_table很好，我在从原始“big_table”继承分区(属性day、month和year)或只是创建来自这些属性的新属性。搜索网络并没有真正帮助我回答这个问题-所有“教程”或解决方案都涉及createasselect或创建分区，而不是两者。这里有人可以帮忙吗？最佳答案不支持创建分区表作为选择。您可以分两步完成:像dlk.big_table一样创建表my_table；这将创建具有相同架构

amp create code table section sql hadoop hive hiveql create-table

hadoop - 将数据插入配置单元中的分区外部表时出错

我一直在尝试在配置单元外部表中实现动态分区。我在AzureDataLakegen2文件系统(支持HDFS)中有一些Parquet文件。我已按照以下步骤操作:创建一个临时外部表(路径:tempdata有parquet文件)createexternaltabletemp(astring,bstring,cdouble,ddouble)STOREDASPARQUETLOCATION'abfs://xyz@storage_account.dfs.core.windows.net/wheeler/tempdata';设置配置单元属性sethive.exec.dynamic.partition=t

时出配置单 java apache hadoop hive bigdata hiveql parquet

hadoop - Hive:从现有分区表创建新表

我使用的是Amazon的ElasticMapReduce，我有一个基于存储在AmazonS3中的一系列日志文件创建的Hive表，并且像这样按天拆分到文件夹中:data/day=2011-09-01/log_file.tsvdata/day=2011-09-02/log_file.tsv我目前正在尝试创建一个额外的表来过滤掉这些日志文件中一些不需要的事件，但我不知道该怎么做并不断收到错误，例如:失败:语义分析错误:需要指定分区列，因为目标表已分区。如果我的初始表创建语句如下所示:CREATEEXTERNALTABLEIFNOTEXISTStable1(...fields...)PARTI

hadoop Hive table section code

hadoop - 将普通列转换为配置单元中的分区列

我有一个包含3列的表格。现在我需要将其中一列修改为分区列。有没有可能？如果没有，我们如何向现有表添加分区。我使用了以下语法:创建表t1(enoint,enamestring)行格式分隔字段以'\t'结尾；将本地数据“/....路径/”加载到表t1中；改变表t1添加分区(p1='india');我收到错误.........有人知道如何向现有表添加分区......吗？提前致谢。最佳答案我不认为这是直接可能的。Hive将不得不完全重新排列和拆分HDFS中的文件，因为添加分区会强加一个新的目录结构。我建议您只需创建一个具有所需架构和分区

配置单 hadoop section strong stackoverflow hive partitioning hdfs hiveql