分区Partition

hadoop - 在配置单元的分区级别添加列

我是Hive的新手，我们需要将列添加到现有的Hive表中。我在以下命令的帮助下做到了这一点。altertabletableName添加列(colName数据类型)级联；但是在hive文档中，我们有alter命令来在分区级别添加列。我尝试了以下命令。hive>SEThive.exec.dynamic.partition=true;hive>altertabletest_alter_colpartition(c=1)addcolumns(d1int);FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.DD

配置单级别 partition alter table hadoop hive hiveql

apache-spark - PySpark:如何在读取 Parquet 时读取分区列

我将数据存储在Parquet文件和按年、月、日分区的配置单元表中。因此，每个parquet文件都存储在/table_name/year/month/day/文件夹中。我只想读入部分分区的数据。我有如下各个分区的路径列表:paths_to_files=['hdfs://data/table_name/2018/10/29','hdfs://data/table_name/2018/10/30']然后尝试做类似的事情:df=sqlContext.read.format("parquet").load(paths_to_files)但是，我的数据不包含关于年月日的信息，因为这不是数据本身的一

apache-spark 在读 code section 配置单 hadoop pyspark apache-spark-sql parquet

hadoop - MapReduce 中的自定义动态分区

我正在使用MapReduce来处理我的数据。我需要将输出存储在日期分区下。我的排序键是日期字符串。现在，如果我在我的自定义分区程序类中覆盖getPartition以返回以下内容:return(formattedDate.hashCode()&Integer.MAX_VALUE)%numReduceTasks;因为我们使用哈希和Mod，在某些情况下我们返回相同的整数值例如:假设numReduceTasks=100现在日期2018-01-20的哈希值可能为101。所以101%100=1现在将其他日期设为2018-02-20，哈希值可能为201。因此201%100=1因此，我们最终将多个日期

自定 MapReduce section code hadoop hive bigdata partitioning

hadoop - 如何在配置单元表中选择用于分区和分桶的列？

以下模式的分区和分桶的理想列是什么？是否有必要同时实现两者，还是一个就可以实现？user_idINTEGERUNSIGNED,product_idVARCHAR(20),genderENUM('M','F')defaultNULL,ageVARCHAR(6),occupationTINYINTUNSIGNEDdefaultNULL,city_categoryENUM('A','B','C','D','E')defaultNULL,stay_in_current_city_yearsVARCHAR(6),martial_statusTINYINTUNSIGNEDdefault0,prod

配置单中选 code category city_category hadoop hive hiveql partitioning

hadoop - 如何将一行插入带分区的配置单元表？

我想在tb_table中插入一行，但是hive好像不支持。我的数据库:insertintotb_testvalues('000','111')partition(day='20190404');异常(exception):FAILED:ParseExceptionline1:40missingEOFat'partition'near')' 最佳答案插入语句应该是这样的，insertintotb_testpartition(day='20190404')values('000','111');分区列的顺序应与它们在表创建语句的PAR

配置单 hadoop section 39 partition hive hiveql

postgresql - Put 请求失败 : INSERT INTO "PARTITION_PARAMS" when executing an insert. .select 包含数百个字段的查询

在带有hive3的HortonworksHDP3集群上通过Tez执行插入..选择查询，我收到以下错误:java.sql.SQLException:Errorwhileprocessingstatement:FAILED:ExecutionError,returncode1fromorg.apache.hadoop.hive.ql.exec.MoveTask.MetaException(message:Putrequestfailed:INSERTINTO"PARTITION_PARAMS"("PARAM_VALUE","PART_ID","PARAM_KEY")VALUES(?,?,?

PARTITION_PARAMS postgresql section 34 code hadoop hive hortonworks-data-platform

java - 不为创建的新配置单元表创建分区文件

表创建成功，但分区未创建/分区文件未创建。CREATEEXTERNALTABLEtable_name(col1,col2)PARTITIONEDBY(`biz_dt`date)--partitioncreatedROWFORMATSERDE'org.apache.hadoop.hive.serde2.OpenCSVSerde'WITHSERDEPROPERTIES('quoteChar'='\"','separatorChar'=',')STOREDASINPUTFORMAT'org.apache.hadoop.mapred.TextInputFormat'OUTPUTFORMAT'o

配置单 java 39 section apache linux hadoop hive hiveql

hadoop - 自定义分区程序 : N number of keys to N different files

我的要求是编写自定义分区程序。例如，我有N个来自映射器的键('jsa'、'msa'、'jbac')。长度不固定。事实上，它可以是任何词。我的要求是以这样一种方式编写自定义分区程序，它将所有相同的key数据收集到同一个文件中。键数不固定。在此先感谢您。谢谢，萨提斯。最佳答案因此，您有多个映射器正在输出的键，并且您希望每个键都有不同的缩减器，并且每个键都有一个单独的文件。因此，首先编写Partitioner可能是实现该目标的一种方式。默认情况下，hadoop有自己的内部逻辑，它在键上执行，并根据它调用reducer。因此，如果您想编

自定 different section key hadoop mapreduce

hadoop - 从现有的外部分区表创建新的配置单元表

我有一个包含近500个分区的外部分区表。我正在尝试创建另一个具有与旧表相同属性的外部表。然后我想将所有分区从我的旧表复制到新创建的表。下面是我的创建表查询。我的旧表存储为TEXTFILE，我想将新表保存为ORC文件。'addjarjson_jarfile;CREATEEXTERNALTABLEnew_table_orc(col1,col2,col3...col27)PARTITIONEDBY(yearstring,monthstring,daystring)ROWFORMATSERDE'org.openx.data.jsonserde.JsonSerDe'WITHSERDEPROPER

配置单 hadoop section 39 code hive hiveql azure-hdinsight

database - 将数据加载到 impala 分区表中

我在HDFS中有以下目录结构中的数据:/exported/2014/07/01/00/SEARCHES/part-m-00000.bz2part-m-00001.bz2/exported/2014/07/01/02/SEARCHES/part-m-00000.bz2part-m-00001.bz2part-m-00003.bz2..../exported/2014/08/01/09/SEARCHES/part-m-00005.bz2每个子目录下有多个零件文件。我想将此数据集加载到impala表中，因此使用以下查询来创建表:CREATEEXTERNALTABLEsearch(time_s

database impala section part-m 不支 hadoop database-schema cloudera

76 77 787980 81 82