我正在开发一种工具,用于将数据从本地格式转换为 Parquet 和 JSON(用于 Spark、Drill 和 MongoDB 的不同设置),使用带有特定映射的 Avro 作为垫脚石。我必须支持定期在客户端机器上转换新数据,这就是为什么我尝试使用 (Avro|Parquet|JSON) 开关编写自己的独立转换工具,而不是使用 Drill 或 Spark 或其他工具作为转换器如果这是一次性工作,我可能会这样做。我将整个事情都基于 Avro,因为这似乎是在一个引擎盖下转换为 Parquet 和 JSON 的最简单方法。
我使用特定映射从静态类型检查中获益,编写了一个 IDL,将其转换为 schema.avsc,生成类并使用特定构造函数设置示例转换,但现在我无法配置编写器。我能找到的所有 Avro-Parquet 转换示例 [0] 使用 AvroParquetWriter 和不推荐使用的签名(主要是:Path file, Schema schema)和通用映射。
AvroParquetWriter 只有一个未弃用的构造函数,具有以下签名:
AvroParquetWriter(
Path file,
WriteSupport<T> writeSupport,
CompressionCodecName compressionCodecName,
int blockSize,
int pageSize,
boolean enableDictionary,
boolean enableValidation,
WriterVersion writerVersion,
Configuration conf
)
大部分参数不难理解,但是WriteSupport<T> writeSupport让我失望。我找不到任何进一步的文档或示例。
盯着 AvroParquetWriter 的源代码,我看到了 GenericData model弹出几次,但只有一行提到 SpecificData : GenericData model = SpecificData.get(); .
所以我有几个问题:
1) AvroParquetWriter 不支持 Avro 特定映射吗?或者通过SpecificData.get()来实现方法?注释“生成的 Java 类和接口(interface)的实用程序”。在“SpecificData.class”上似乎暗示了这一点,但我应该如何进行呢?
2) AvroParquetWriter 构造函数中发生了什么,是否可以在某处找到示例或文档?
3) 更具体地说:WriteSupport 方法的签名要求“Schema avroSchema”和“GenericData model”。什么是GenericData model引用?也许我没有看到森林,因为这里有很多树......
举例说明我的目标,我的 Avro 转换代码的核心部分目前如下所示:
DatumWriter<MyData> avroDatumWriter = new SpecificDatumWriter<>(MyData.class);
DataFileWriter<MyData> dataFileWriter = new DataFileWriter<>(avroDatumWriter);
dataFileWriter.create(schema, avroOutput);
Parquet 等价物目前看起来像这样:
AvroParquetWriter<SpecificRecord> parquetWriter = new AvroParquetWriter<>(parquetOutput, schema);
但这只是一个开始,它是根据我发现的示例建模的,使用了已弃用的构造函数,因此无论如何都必须进行更改。
谢谢,
托马斯
[0] Hadoop - 权威指南,O'Reilly,https://gist.github.com/hammer/76996fb8426a0ada233e , http://www.programcreek.com/java-api-example/index.php?api=parquet.avro.AvroParquetWriter
最佳答案
试试 AvroParquetWriter.builder :
MyData obj = ... // should be avro Object
ParquetWriter<Object> pw = AvroParquetWriter.builder(file)
.withSchema(obj.getSchema())
.build();
pw.write(obj);
pw.close();
谢谢。
关于hadoop - Parquet-MR AvroParquetWriter - 如何将数据转换为 Parquet(使用特定映射),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35315992/