Parquet_草庐IT

hadoop - 基于 Hadoop 的流媒体框架，支持 ORC、parquet 文件格式

关闭。这个问题不符合StackOverflowguidelines.它目前不接受答案。我们不允许提问寻求书籍、工具、软件库等的推荐。您可以编辑问题，以便用事实和引用来回答。关闭8年前。ImprovethisquestionHadoop流是否支持ORC和parquet等新的列式存储格式，或者Hadoop之上是否有允许您读取此类格式的框架？

流媒流媒体 section class notice hadoop mapreduce hive hadoop-streaming

hadoop - 用于写入文件的 Parquet 版本

有没有办法找出在HDFS中写入parquet文件时使用的parquet版本？我正在尝试查看各种文件是使用相同的Parquet版本还是不同的版本编写的。最佳答案 $hadoopjarparquet-tools-1.9.0.jarmetamy-parquet-file.parquet|grep"parquet-mrversion"creator:parquet-mrversion1.8.1(build4aba4dae7bb0d4edbcf7923ae1339f28fd3f7fcf) 关于h

Parquet hadoop section stackoverflow hdfs

hadoop - 从 Kafka 读取并写入 parquet 中的 hdfs

我是BigData生态系统的新手，有点入门。我已经阅读了几篇关于使用spark流读取kafka主题的文章，但想知道是否可以使用spark作业而不是流从kafka读取？如果是的话，你们能帮我指出一些可以帮助我入门的文章或代码片段吗？我的问题的第二部分是以拼花格式写入hdfs。一旦我从Kafka读到，我想我会有一个rdd。将此rdd转换为数据帧，然后将数据帧写入Parquet文件。这是正确的方法吗？感谢任何帮助。谢谢最佳答案要从Kafka读取数据并将其以Parquet格式写入HDFS，使用SparkBatch作业而不是流，您可以

parquet hadoop 34 option Kafka apache-spark apache-kafka hdfs

python - 如何复制 Parquet 文件并将其转换为 csv

我可以访问hdfs文件系统，并且可以查看parquet文件hadoopfs-ls/user/foo如何将这些parquet文件复制到我的本地系统并将它们转换为csv以便我可以使用它们？这些文件应该是每行包含多个字段的简单文本文件。最佳答案尝试df=spark.read.parquet("/path/to/infile.parquet")df.write.csv("/path/to/outfile.csv")相关API文档:pyspark.sql.DataFrameReader.parquetpyspark.sql.DataFra

并将 Parquet code section python hadoop apache-spark pyspark

hadoop - Spark Swift 集成 Parquet

我使用Spark1.3.0并将Parquet文件写入OpenstackSwift对象存储已有一段时间了。我正在为Parquet文件使用大约12个分区，这些文件将Parquet文件写入Swift的几个部分。写入文件没有问题。但是当我尝试通过Spark读取它时，出现了这个错误:ERRORExecutor:Exceptionintask9.0instage2.0(TID22)java.io.EOFExceptionatjava.io.DataInputStream.readFully(DataInputStream.java:197)atjava.io.DataInputStream.rea

Parquet hadoop scala java apache-spark hdfs openstack-swift

hadoop - 如何将小二进制文件作为元数据 Map<fileName, fileContent> 放入 Parquet 文件？有什么限制吗？

如何将几十个小二进制文件作为元数据放入Parquet文件Map？小文件是平均100KB左右的文档、图片。我们已经将一些短字符串值放入parquet元信息映射中，但是对映射条目的数量、映射的总大小或单个映射值的大小是否有限制？如果有，有什么限制？也许我的目标不太可能违反限制？最佳答案希望@Gerardo可以提供一些细节，但官方文档说元素大小没有限制:http://parquet.apache.org/documentation/latest/#types州TypesThetypessupportedbythefileformata

fileContent amp section strong types hadoop parquet

hadoop - 在行组大小小于 100 的 spark 中创建 Parquet 文件

我有一个包含少量字段的spark数据框。一些字段是巨大的二进制blob。整行的大小约为50MB。我正在将数据框保存为Parquet格式。我使用parquet.block.size参数控制行组的大小。Spark将生成一个parquet文件，但我总是会在一个行组中获得至少100行。这对我来说是个问题，因为block大小可能会变成千兆字节，这对我的应用程序来说效果不佳。parquet.block.size只要大小足以容纳超过100行，就可以按预期工作。我修改了InternalParquetRecordWriter.java为MINIMUM_RECORD_COUNT_FOR_CHECK=2，这

中创在行 spark section parquet hadoop apache-spark

java - Apache Parquet 无法读取页脚 : java. io.IOException:

我有一个在ClouderaVM上运行的SPARK项目。在我的项目中，我从parquet文件加载数据，然后处理这些数据。一切正常，但问题是我需要在学校集群上运行这个项目，但在这部分代码中读取Parquet文件时遇到问题:DataFrameschemaRDF=sqlContext.parquetFile("/var/tmp/graphs/sib200.parquet");我收到以下错误:Couldnotreadfooter:java.io.IOException:CouldnotreadfooterforfileFileStatus{path=file:/var/tmp/graphs/si

java IOException section parquet hadoop io apache-spark

hadoop - 拥有一个大的 parquet 文件还是许多较小的 parquet 文件更好？

我知道hdfs会将文件拆分成大约64mb的block。我们有流式传输的数据，我们可以将它们存储到大文件或中等大小的文件中。列式文件存储的最佳大小是多少？如果我可以将文件存储到最小列为64mb的位置，它会比拥有1gb文件节省任何计算时间吗？最佳答案目标是每个文件(spark分区)大约1GB(1)。理想情况下，您会使用snappy压缩(默认)，因为snappy压缩的parquet文件是可拆分的(2)。使用snappy而不是gzip会显着增加文件大小，因此如果存储空间是个问题，则需要考虑这一点。.option("compression

parquet 许多 section snappy hadoop apache-spark

hadoop - Spark SQL无法完成大量分片的Parquet数据写入

我正在尝试使用ApacheSparkSQL将S3中的json日志数据etl到也在S3上的Parquet文件中。我的代码基本上是:importorg.apache.spark._valsqlContext=sql.SQLContext(sc)valdata=sqlContext.jsonFile("s3n://...",10e-6)data.saveAsParquetFile("s3n://...")此代码在我有多达2000个分区时有效，而在5000或更多分区时失败，无论数据量如何。通常可以将分区合并到一个可接受的数量，但这是一个非常大的数据集，在2000个分区时我遇到了这个questi

Parquet hadoop iwC apache SparkILoop amazon-s3 apache-spark apache-spark-sql