搞机分区

hadoop - Spark SQL分区感知查询配置单元表

给定按some_field(int类型)Hive表分区，数据存储为Avro文件，我想使用SparkSQL查询表，返回的数据帧必须已经按some_field(用于分区)分区。查询看起来像SELECT*FROMsome_table默认情况下Spark不会这样做，返回的data_frame.rdd.partitioner是None。获得结果的一种方法是在查询后通过显式重新分区，但可能有更好的解决方案。HDP2.6、Spark2。谢谢。最佳答案首先，您必须区分Dataset的分区和转换后的RDD[Row]的分区。不管前者的执行计划是什么

ruby - hadoop流，如何设置分区？

我是hadoop流的新手，在分区方面遇到了一些困难。根据在一行中找到的内容，我的映射器函数要么返回key1,0,somegeneralvalues#somekindof"header"linewherelinetype=0或key1,1,value1,value2,othervalues...#"data"line,differentvalues,linetype=1为了正确减少，我需要将具有相同key1的所有行分组，并按值1、值2和线型(0或1)对它们进行排序，例如:10foobar...#headerfirst11888999....#dataline,withlowervalue

hadoop ruby code pre section hadoop-streaming hadoop-partitioning

shell - 如何检查HIVE中是否存在任何特定分区

如何检查HIVE中是否存在任何特定分区:我的hive表中有如下分区:国家=印度/州=MH国家=美国/州=纽约我想检查country="somethingandstate="something"是否存在于HIVE或使用shell脚本中。请帮忙最佳答案 descmytable分区(...)显示像mytable分区一样扩展的表(...)使用hive-e'...'从shell执行演示createtablemytable(iint)partitionedby(yearint,monthtinyint,daytinyint);insertin

shell HIVE mytable month year hadoop

hadoop - 使用load命令加载数据到hive静态分区表

如果它是非常基本的，请不要介意:测试.txt1拉维100海德2克里希纳200海德3fff300秒我在hive中创建了一个表，在city上进行了分区，并加载了如下数据:createexternaltabletemp(idint,namestring,salint)partitionedby(citystring)location'/testing';将路径“/test.txt”中的数据加载到表临时分区(city='hyd');在HDFS中，结构是/testing/temp/city=hyd/test.txt当我将表查询为“select*fromtemp”时；输出:temp.idtemp.

hadoop load section code temp hive hiveql hadoop2

hadoop - 你能改变 Hive 表的动态分区格式吗？

序曲我正在使用具有动态分区的外部Hive表。SEThive.exec.dynamic.partition=trueSEThive.exec.dynamic.partition.mode=nonstrict表格看起来像这样:CREATEEXTERNALTABLE`some_test`(`id`bigint,`timestamp`int,`some_other_values`bigint)PARTITIONEDBY(`year`int,`month`int,`day`int,`hour`int)ROWFORMATSERDE'org.apache.hadoop.hive.ql.io.parq

hadoop Hive code section hadoop-partitioning

hadoop - 无法更改或删除影响很大的分区表 - 由 : MetaException: Timeout when executing 引起

我有几个impala分区表，它们有超过50k的分区，除了HiveMetastore操作，如DROP和ALTER...RENAME，我遇到此错误消息:Query:droptablecarsERROR:ImpalaRuntimeException:Errormaking'dropTable'RPCtoHiveMetastore:CAUSEDBY:MetaException:Timeoutwhenexecutingmethod:drop_table_with_environment_context;600003msexceeds600000ms不知道是不是内存的问题？或者这是正常的，我应该调

MetaException executing section strong code hadoop hive hadoop2 impala metastore

hadoop - Hive Table 添加分区加载所有子目录

我正在使用配置单元(带有外部表)来处理存储在amazonS3上的数据。我的数据分区如下:group/team/dt/(例如，数据文件可能存储在路径group=myGroup/team=myTeam/dt=20120603)我想为多个团队(在不同的组中)处理数据。由于RCOVERPARTITIONS需要很长时间，我想将基于组和团队值的多个分区添加到配置单元表中(即，给定一个组和团队加载该团队中所有可用日期的数据)。我正在寻找的功能是:CREATEEXTERNALTABLEmyData(attr1string,attr2string,attr3string)PARTITIONEDBY(gr

子目子目录 group section team hadoop hive amazon-emr emr

hadoop - 关于 reducer 的数据分区

Hadoop权威指南(TomWhite)第178页Sectionshuffleandsort:map端。就在图6-4之后在写入磁盘之前，线程首先将数据分成与数据最终将发送到的reducer相对应的分区。在每个分区中，后台线程按键执行内存中排序，如果有组合器函数，它会在排序的输出上运行。问题:这是否意味着映射将每个键输出写入不同的文件，然后再将它们组合起来。因此，如果有2个不同的key输出要发送到reducer，每个不同的key将分别发送到reducer，而不是发送单个文件。如果我的上述推理不正确，那么实际发生的是什么。最佳答案仅

reducer hadoop section map mapreduce

hadoop - Spark 不利用 parquet 的 hdfs 分区

我正在使用以下命令将parquet文件写入hdfs:df.write.mode(SaveMode.Append).partitionBy(id).parquet(path)之后我正在读取和过滤这样的文件:valfile=sqlContext.read.parquet(folder)valdata=file.map(r=>Row(r.getInt(4).toString,r.getString(0),r.getInt(1),r.getLong(2),r.getString(3)))valfilteredData=data.filter(x=>x.thingId.equals("1"))f

不利 parquet code ParquetRelation hadoop apache-spark hdfs bigdata

apache-spark - Spark Dataframe 丢失分区

我在读取spark数据帧时发现了这个奇怪的问题。我将数据框重新分区为50k个分区。但是，当我读取数据帧并对其执行计数操作时，我发现当我使用spark2.0时，底层的rdd只有2143个分区。于是我去了我保存重新分区数据的路径，发现hfs-ls/repartitionedData/|wc-l50476因此它在保存数据时创建了50k个分区。但是对于spark2.0，vald=spark.read.parquet("repartitionedData")d.rdd.getNumPartitionsres4:Int=2143但是对于spark1.5，vald=spark.read.parque

apache-spark Dataframe section spark code hadoop apache-spark-sql bigdata

89 90 919293 94 95