Parquet

java - 无法编译 Parquet 工具

我从thislink克隆了parquet-mr的存储库.我想按照说明构建parquet-toolshere:cdparquet-mr/parquet-tools/mvncleanpackage-Plocal(我更新了pom.xml以指向正确版本的com.twitter:parquet-hadoop:jar)这是我得到的编译错误:[ERROR]COMPILATIONERROR:[INFO]-------------------------------------------------------------[ERROR]/usr/local/parquet-mr-master/parq

hadoop - 通过 Vertica 查询 Parquet 数据(Vertica Hadoop Integration)

所以我有一个包含三个节点的Hadoop集群。Vertica位于集群上。HDFS上有Parquet文件(由Hive分区)。我的目标是使用Vertica查询这些文件。现在我所做的是使用HDFS连接器，基本上是在Vertica中创建一个外部表，然后将其链接到HDFS:CREATEEXTERNALTABLEtableName(columns)ASCOPYFROM"hdfs://hostname/...../data"PARQUET;由于数据量很大。这种方法不会获得良好的性能。我做了一些研究，VerticaHadoopIntegration我已经尝试过HCatalog，但我的Hadoop上存在一

Vertica Integration HadoopIntegrationGuide section hadoop parquet

scala - 获取 HDFS 中 Parquet 文件的大小，以便在 Scala 中使用 Spark 进行重新分区

我在HDFS上有许多parquet文件目录，每个目录包含几千个小的(大多数使用以下代码，我可以将本地parquet文件重新分区为更少的部分:valpqFile=sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")但我不知道如何通过Scala代码以编程方式获取HDFS上目录的大小，因此我无法计算出要传递给coalesce函数的分区数真实数据集。我该怎么做？或者在Spar

Parquet scala section hadoop apache-spark hdfs

java - Spark 异常 : Task failed while writing rows

我正在读取文本文件并将它们转换为parquet文件。我正在使用Spark代码来做这件事。但是当我尝试运行代码时出现以下异常org.apache.spark.SparkException:Jobabortedduetostagefailure:Task2instage1.0failed4times,mostrecentfailure:Losttask2.3instage1.0(TID9,XXXX.XXX.XXX.local):org.apache.spark.SparkException:Taskfailedwhilewritingrows.atorg.apache.spark.sql.

writing failed apache spark InsertIntoHadoopFsRelation java hadoop apache-spark apache-spark-sql parquet

java - 如何将数据附加到现有的 Parquet 文件

我正在使用以下代码创建ParquetWriter并将记录写入其中。ParquetWriterparquetWriter=newParquetWriter(path,writeSupport,CompressionCodecName.SNAPPY,BLOCK_SIZE,PAGE_SIZE);finalGenericRecordrecord=newGenericData.Record(avroSchema);parquetWriter.write(record);但它只允许创建新文件(在指定路径)。有没有办法将数据附加到现有的Parquet文件(在路径中)？在我的情况下缓存parquetW

Parquet java section code ParquetWriter hadoop

apache - 用于查看/编辑 Apache Parquet 的 GUI 工具

我有一些ApacheParquet文件。我知道我可以在我的shell中执行parquetfile.parquet并在终端中查看它。但我想要一些GUI工具以更用户友好的格式查看Parquet文件。有这样的程序吗？最佳答案查看此实用程序。适用于所有Windows版本:https://github.com/mukunku/ParquetViewer 关于apache-用于查看/编辑ApacheParquet的GUI工具，我们在StackOverflow上找到一个类似的问题：

Parquet apache section https hadoop

scala - Spark : SAXParseException while writing to parquet on s3

我正在尝试读取一些json，推断模式，然后将其作为parquet再次写出到s3(s3a)。出于某种原因，在运行的写入部分进行了大约三分之一的过程中，spark总是出错并出现以下错误。我找不到任何明显的问题原因:它不是内存不足；没有长时间的GC暂停。各个执行者的日志中似乎没有任何其他错误消息。该脚本在我拥有的另一组数据上运行良好，它具有非常相似的结构，但小了几个数量级。我正在运行spark2.0.1-hadoop-2.7并使用FileOutputCommitter。算法版本似乎并不重要。编辑:对于格式错误的json或损坏的文件，这似乎不是问题。我已经解压缩并单独读取每个文件，没有错误。这

SAXParseException parquet apache spark org scala hadoop apache-spark amazon-s3

scala - 如何使用 `ssc.fileStream()` 读取 Parquet 文件？传递给 `ssc.fileStream()` 的类型是什么？

我对Spark的理解fileStream()方法是将三种类型作为参数:Key,Value,和Format.对于文本文件，适当的类型是:LongWritable,Text,和TextInputFormat.首先，我想了解这些类型的本质。凭直觉，我猜Key在本例中是文件的行号，Value是那一行的文字。因此，在以下文本文件示例中:HelloTestAnotherTestDStream的第一行会有一个Key的1(0？)和一个Value的Hello.这是正确的吗？我的问题的第二部分:我查看了ParquetInputFormat的反编译实现我注意到一些奇怪的事情:publicclassParqu

fileStream ssc code ParquetInputFormat strong scala hadoop apache-spark spark-streaming hadoop2

hadoop - 嵌入式模式下的 Spark - 未找到用户/配置单元/仓库

我在嵌入式本地模式下使用ApacheSpark。我的pom.xml和同一版本(spark-core_2.10、spark-sql_2.10和spark-hive_2.10)中包含所有依赖项。我只想运行一个HiveQL查询来创建一个表(存储为Parquet)。运行以下(相当简单的)代码:publicclassApp{publicstaticvoidmain(String[]args)throwsIOException,ClassNotFoundException{SparkConfsparkConf=newSparkConf().setAppName("JavaSparkSQL").se

配置单 hadoop code hive section apache-spark apache-spark-sql parquet

hadoop - 您可以使用 Spark SQL/Hive/Presto 直接从 Parquet/S3 复制到 Redshift 吗？

我们有大量服务器数据存储在S3中(很快将采用Parquet格式)。数据需要一些转换，因此它不能是S3的直接副本。我将使用Spark来访问数据，但我想知道是否可以不使用Spark来处理它，写回S3，然后复制到Redshift，如果我可以跳过一个步骤，运行查询以提取/转换数据，然后将其直接复制到Redshift？最佳答案没问题，完全有可能。读取parquet的Scala代码(取自here)valpeople:RDD[Person]=...people.write.parquet("people.parquet")valparquet

Redshift Parquet section code 34 hadoop amazon-s3 apache-spark apache-spark-sql

3 4 567 8 9