在Java中创建镶木地板文件

陈富

2023-03-14

问题内容：

有没有办法从Java创建镶木地板文件？

我的内存中有数据（java类），我想将其写入一个Parquet文件中，以便以后从apache-drill中读取它。

有没有简单的方法可以做到这一点，例如将数据插入sql表？

得到它了

谢谢您的帮助。

结合答案和此链接，我能够创建一个实木复合地板文件并用钻头将其读回。

问题答案：

不建议使用ParquetWriter的构造函数（1.8.1），但不建议使用ParquetWriter本身，您仍然可以通过扩展其中的abstract
Builder子类来创建ParquetWriter。

这里是实木复合地板创建者自己的示例ExampleParquetWriter：

  public static class Builder extends ParquetWriter.Builder<Group, Builder> {
    private MessageType type = null;
    private Map<String, String> extraMetaData = new HashMap<String, String>();

    private Builder(Path file) {
      super(file);
    }

    public Builder withType(MessageType type) {
      this.type = type;
      return this;
    }

    public Builder withExtraMetaData(Map<String, String> extraMetaData) {
      this.extraMetaData = extraMetaData;
      return this;
    }

    @Override
    protected Builder self() {
      return this;
    }

    @Override
    protected WriteSupport<Group> getWriteSupport(Configuration conf) {
      return new GroupWriteSupport(type, extraMetaData);
    }

  }

如果您不想使用Group和GroupWriteSupport（捆绑在Parquet中，但仅用作数据模型实现的示例），则可以使用Avro，协议缓冲区或Thrift内存中数据模型。这是一个使用Avro编写Parquet的示例：

try (ParquetWriter<GenericData.Record> writer = AvroParquetWriter
        .<GenericData.Record>builder(fileToWrite)
        .withSchema(schema)
        .withConf(new Configuration())
        .withCompressionCodec(CompressionCodecName.SNAPPY)
        .build()) {
    for (GenericData.Record record : recordsToWrite) {
        writer.write(record);
    }
}

您将需要以下依赖项：

<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-avro</artifactId>
    <version>1.8.1</version>
</dependency>

<dependency>
    <groupId>org.apache.parquet</groupId>
    <artifactId>parquet-hadoop</artifactId>
    <version>1.8.1</version>
</dependency>

完整的例子在这里。

在Java中创建镶木地板文件

相关阅读

相关文章

相关问答

相关工具

相关文档