草庐IT

hadoop - Parquet-MR AvroParquetWriter - 如何将数据转换为 Parquet(使用特定映射)

coder 2024-01-06 原文

我正在开发一种工具,用于将数据从本地格式转换为 Parquet 和 JSON(用于 Spark、Drill 和 MongoDB 的不同设置),使用带有特定映射的 Avro 作为垫脚石。我必须支持定期在客户端机器上转换新数据,这就是为什么我尝试使用 (Avro|Parquet|JSON) 开关编写自己的独立转换工具,而不是使用 Drill 或 Spark 或其他工具作为转换器如果这是一次性工作,我可能会这样做。我将整个事情都基于 Avro,因为这似乎是在一个引擎盖下转换为 Parquet 和 JSON 的最简单方法。

我使用特定映射从静态类型检查中获益,编写了一个 IDL,将其转换为 schema.avsc,生成类并使用特定构造函数设置示例转换,但现在我无法配置编写器。我能找到的所有 Avro-Parquet 转换示例 [0] 使用 AvroParquetWriter 和不推荐使用的签名(主要是:Path file, Schema schema)和通用映射。

AvroParquetWriter 只有一个未弃用的构造函数,具有以下签名:

AvroParquetWriter(
    Path file, 
    WriteSupport<T> writeSupport,
    CompressionCodecName compressionCodecName,
    int blockSize, 
    int pageSize, 
    boolean enableDictionary,
    boolean enableValidation, 
    WriterVersion writerVersion,
    Configuration conf
)

大部分参数不难理解,但是WriteSupport<T> writeSupport让我失望。我找不到任何进一步的文档或示例。
盯着 AvroParquetWriter 的源代码,我看到了 GenericData model弹出几次,但只有一行提到 SpecificData : GenericData model = SpecificData.get(); .

所以我有几个问题:

1) AvroParquetWriter 不支持 Avro 特定映射吗?或者通过SpecificData.get()来实现方法?注释“生成的 Java 类和接口(interface)的实用程序”。在“SpecificData.class”上似乎暗示了这一点,但我应该如何进行呢?

2) AvroParquetWriter 构造函数中发生了什么,是否可以在某处找到示例或文档?

3) 更具体地说:WriteSupport 方法的签名要求“Schema avroSchema”和“GenericData model”。什么是GenericData model引用?也许我没有看到森林,因为这里有很多树......

举例说明我的目标,我的 Avro 转换代码的核心部分目前如下所示:

DatumWriter<MyData> avroDatumWriter = new SpecificDatumWriter<>(MyData.class);
DataFileWriter<MyData> dataFileWriter = new DataFileWriter<>(avroDatumWriter);
dataFileWriter.create(schema, avroOutput);

Parquet 等价物目前看起来像这样:

AvroParquetWriter<SpecificRecord> parquetWriter = new AvroParquetWriter<>(parquetOutput, schema);

但这只是一个开始,它是根据我发现的示例建模的,使用了已弃用的构造函数,因此无论如何都必须进行更改。

谢谢,
托马斯

[0] Hadoop - 权威指南,O'Reilly,https://gist.github.com/hammer/76996fb8426a0ada233e , http://www.programcreek.com/java-api-example/index.php?api=parquet.avro.AvroParquetWriter

最佳答案

试试 AvroParquetWriter.builder :

MyData obj = ... // should be avro Object
ParquetWriter<Object> pw = AvroParquetWriter.builder(file)
        .withSchema(obj.getSchema())
        .build();
pw.write(obj);
pw.close(); 

谢谢。

关于hadoop - Parquet-MR AvroParquetWriter - 如何将数据转换为 Parquet(使用特定映射),我们在Stack Overflow上找到一个类似的问题: https://stackoverflow.com/questions/35315992/

有关hadoop - Parquet-MR AvroParquetWriter - 如何将数据转换为 Parquet(使用特定映射)的更多相关文章

随机推荐