草庐IT

分区Partition

全部标签

hadoop - 在配置单元的分区级别添加列

我是Hive的新手,我们需要将列添加到现有的Hive表中。我在以下命令的帮助下做到了这一点。altertabletableName添加列(colName数据类型)级联;但是在hive文档中,我们有alter命令来在分区级别添加列。我尝试了以下命令。hive>SEThive.exec.dynamic.partition=true;hive>altertabletest_alter_colpartition(c=1)addcolumns(d1int);FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DD

apache-spark - PySpark:如何在读取 Parquet 时读取分区列

我将数据存储在Parquet文件和按年、月、日分区的配置单元表中。因此,每个parquet文件都存储在/table_name/year/month/day/文件夹中。我只想读入部分分区的数据。我有如下各个分区的路径列表:paths_to_files=['hdfs://data/table_name/2018/10/29','hdfs://data/table_name/2018/10/30']然后尝试做类似的事情:df=sqlContext.read.format("parquet").load(paths_to_files)但是,我的数据不包含关于年月日的信息,因为这不是数据本身的一

hadoop - MapReduce 中的自定义动态分区

我正在使用MapReduce来处理我的数据。我需要将输出存储在日期分区下。我的排序键是日期字符串。现在,如果我在我的自定义分区程序类中覆盖getPartition以返回以下内容:return(formattedDate.hashCode()&Integer.MAX_VALUE)%numReduceTasks;因为我们使用哈希和Mod,在某些情况下我们返回相同的整数值例如:假设numReduceTasks=100现在日期2018-01-20的哈希值可能为101。所以101%100=1现在将其他日期设为2018-02-20,哈希值可能为201。因此201%100=1因此,我们最终将多个日期

hadoop - 如何在配置单元表中选择用于分区和分桶的列?

以下模式的分区和分桶的理想列是什么?是否有必要同时实现两者,还是一个就可以实现?user_idINTEGERUNSIGNED,product_idVARCHAR(20),genderENUM('M','F')defaultNULL,ageVARCHAR(6),occupationTINYINTUNSIGNEDdefaultNULL,city_categoryENUM('A','B','C','D','E')defaultNULL,stay_in_current_city_yearsVARCHAR(6),martial_statusTINYINTUNSIGNEDdefault0,prod

hadoop - 如何将一行插入带分区的配置单元表?

我想在tb_table中插入一行,但是hive好像不支持。我的数据库:insertintotb_testvalues('000','111')partition(day='20190404');异常(exception):FAILED:ParseExceptionline1:40missingEOFat'partition'near')' 最佳答案 插入语句应该是这样的,insertintotb_testpartition(day='20190404')values('000','111');分区列的顺序应与它们在表创建语句的PAR

postgresql - Put 请求失败 : INSERT INTO "PARTITION_PARAMS" when executing an insert. .select 包含数百个字段的查询

在带有hive3的HortonworksHDP3集群上通过Tez执行插入..选择查询,我收到以下错误:java.sql.SQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.MoveTask.MetaException(message:Putrequestfailed:INSERTINTO"PARTITION_PARAMS"("PARAM_VALUE","PART_ID","PARAM_KEY")VALUES(?,?,?

java - 不为创建的新配置单元表创建分区文件

表创建成功,但分区未创建/分区文件未创建。CREATEEXTERNALTABLEtable_name(col1,col2)PARTITIONEDBY(`biz_dt`date)--partitioncreatedROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES('quoteChar'='\"','separatorChar'=',')STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'o

hadoop - 自定义分区程序 : N number of keys to N different files

我的要求是编写自定义分区程序。例如,我有N个来自映射器的键('jsa'、'msa'、'jbac')。长度不固定。事实上,它可以是任何词。我的要求是以这样一种方式编写自定义分区程序,它将所有相同的key数据收集到同一个文件中。键数不固定。在此先感谢您。谢谢,萨提斯。 最佳答案 因此,您有多个映射器正在输出的键,并且您希望每个键都有不同的缩减器,并且每个键都有一个单独的文件。因此,首先编写Partitioner可能是实现该目标的一种方式。默认情况下,hadoop有自己的内部逻辑,它在键上执行,并根据它调用reducer。因此,如果您想编

hadoop - 从现有的外部分区表创建新的配置单元表

我有一个包含近500个分区的外部分区表。我正在尝试创建另一个具有与旧表相同属性的外部表。然后我想将所有分区从我的旧表复制到新创建的表。下面是我的创建表查询。我的旧表存储为TEXTFILE,我想将新表保存为ORC文件。'addjarjson_jarfile;CREATEEXTERNALTABLEnew_table_orc(col1,col2,col3...col27)PARTITIONEDBY(yearstring,monthstring,daystring)ROWFORMATSERDE'org.openx.data.jsonserde.JsonSerDe'WITHSERDEPROPER

database - 将数据加载到 impala 分区表中

我在HDFS中有以下目录结构中的数据:/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2part-m-00001.bz2/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2part-m-00001.bz2part-m-00003.bz2..../exported/2014/08/01/09/SEARCHES/part-m-00005.bz2每个子目录下有多个零件文件。我想将此数据集加载到impala表中,因此使用以下查询来创建表:CREATEEXTERNALTABLEsearch(time_s