Parquet

java - ORC 文件元数据 : writing custom key value?

有没有办法将额外的元数据写入ORC文件？我找到了一种使用“KeyValueMetadata”在Parquet上做到这一点的方法。我查看了UserMetadataItem类，但不确定Orc是否提供了添加自定义元数据的方法。我想找到一种使用java的方法。最佳答案您可以将自定义键值对写入ORC文件的元数据。唯一的限制是在键值对中，键必须是字符串，值必须是二进制。查看此处了解更多信息:https://orc.apache.org/docs/file-tail.html#user-metadata

writing custom section 自定 https java hadoop parquet orc

scala - 使用hadoop parquet处理大数据到CSV输出

我有3个数据集，我想加入并分组它们以获得包含聚合数据的CSV。数据作为parquet文件存储在Hadoop中，我使用Zeppelin运行ApacheSpark+Scala进行数据处理。我的数据集如下所示:user_actions.show(10)user_clicks.show(10)user_options.show(10)+--------------------+--------------------+|id|keyword|+--------------------+--------------------+|00000000000000000001|aaaa1||00000

大数 parquet 34 user code scala hadoop apache-spark apache-zeppelin

hadoop - Sqoop snappy 压缩不起作用

我有以下sqoop脚本，它应该以parquet格式获取数据并使用snappy压缩。sqoopimport\--hive-drop-import-delims\--fields-terminated-by'\001'\--connect''\--query'select*from.where$CONDITIONS'\--username\--password\--split-by''\-m=4\--input-null-string''\--input-null-non-string''\--inline-lob-limit0\--target-dir\--compression-cod

hadoop snappy section parquet code hive

hadoop - 如何在 impala 或 hive 上读取复杂类型数组 <string>？

我尝试读取hive上的复杂类型dog.owners(array)使用以下查询selectdog_id,concat_ws(',',collect_set(owners))asownersfromdoggroupbydog_id但我收到以下错误Argument2offunctionCONCAT_WSmustbe"stringorarray",but"array>"wasfound.看起来数据类型不匹配。我试图将列所有者创建为array>但我仍然遇到同样的错误。有没有办法阅读关于hive或黑斑羚的专栏？最佳答案 selectdog_i

何在 amp section code string hadoop hive parquet impala

apache-spark - 在用压缩文件替换 HDFS 中的小文件时如何避免破坏事件的 Hive/Presto 查询？

我们有100多个HDFS分区，我们每天每小时都会写入这些分区。分区是每天进行的，以便直接加载到Hive中，数据以Parquet格式写入。我们遇到的问题是，因为我们想尽可能快地获取数据可查询，每小时写入导致很多小文件。有很多例子，例如Howtocombinesmallparquetfilestoonelargeparquetfile?对于合并代码；我的问题是在移动/替换新压缩的文件以替换小文件时如何避免破坏人们的主动查询？最佳答案 Metastore对每个分区都有一个文件系统位置。该位置通常基于表和分区:hdfs://namenod

apache-spark 在用 section parquet stackoverflow hadoop hive hdfs presto

hadoop - 为 AvroParquetInputFormat 设置多个 projectionSchemas 的问题

我使用AvroParquetInputFormat。用例需要扫描多个输入目录，每个目录将包含具有一个模式的文件。由于AvroParquetInputFormat类无法处理多个输入模式，我通过静态创建多个虚拟类(如MyAvroParquetInputFormat1、MyAvroParquetInputFormat2等)创建了一个解决方法，其中每个类都继承自AvroParquetInputFormat。对于每个目录，我设置了一个不同的MyAvroParquetInputFormat并且有效(如果有更简洁的方法来实现此目的，请告诉我)。我目前的问题如下:每个文件都有几百列，基于元数据，我为每

AvroParquetInputFormat projectionSchemas section MyAvroParquetInputFormat hadoop mapreduce avro parquet

sql - 斯卡拉 : Spark sqlContext query

我的文件中只有3个事件(第3列)01、02、03。模式是unixTimestamp|id|eventType|date1|date2|date3639393604950|1001|01|2015-05-1210:00:18|||639393604950|1002|01|2015-05-1210:04:18|||639393604950|1003|01|2015-05-1210:05:18|||639393604950|1001|02||2015-05-1210:40:18||639393604950|1001|03|||2015-05-1219:30:18|639393604950|1

斯卡拉斯卡 639393604950 date section sql hadoop apache-spark apache-spark-sql parquet

scala - 无法使用 spark shell 在 hdfs 中创建 Parquet 文件

我想在hdfs中创建parquet文件，然后通过hive将其作为外部表读取。在编写Parquet文件时，我对spark-shell中的阶段失败感到震惊。星火版本:1.5.2斯卡拉版本:2.10.4Java:1.7输入文件:(employee.txt)1201，萨蒂什，25岁1202，克里希纳，28岁1203，阿米斯，39岁1204，贾韦德，231205,普鲁德维,23在Spark-Shell中:valsqlContext=neworg.apache.spark.sql.SQLContext(sc)valhiveContext=neworg.apache.spark.sql.hive.H

中创 Parquet strong 34 spark scala hadoop apache-spark

hadoop - Parquet 行组比文件中预期的太多

我目前正在使用mapreduce编写parquet，我将行组大小配置为256M，hdfsblock大小也设置为256M。输出文件大小约为每个文件1G。所以我应该期望生成的文件中有4个行组。但是当我使用时:parquet-tools元路径/to/my/file|grep“行组”它给了我63个不同大小和行数的行组:rowgroup1:RC:69816TS:244168913rowgroup2:RC:35111TS:117407826rowgroup3:RC:18488TS:60107388rowgroup4:RC:10357TS:33260415rowgroup5:RC:7905TS:24

Parquet hadoop group row RC mapreduce

hadoop - HIVe - 创建表为 - 从现有表创建 Parquet 表时出错

我使用CTAS从现有表(订单)创建了一个Parquet表(orders_parquet)，如下所示:CREATETABLEorders_parquetROWFORMATSERDE'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe'STOREDASINPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat'OUTPUTFORMAT'org.apache.hadoop.hive.ql.io.parquet.MapredParquetO

时出 Parquet java FileHandler FileOutputStream hadoop hive

123 4 5