当前位置: 首页 > 知识库问答 >
问题:

Spark DataFrame:编写成Avro时如何指定模式

王飞虎
2023-03-14

我希望使用提供的Avro模式而不是Spark自动生成的模式来编写Avro格式的DataFrame。如何告诉Spark在写时使用自定义模式?

共有1个答案

商迪
2023-03-14

在https://github.com/databricks/spark-avro/pull/222/中应用补丁后,我能够在write中指定一个模式,如下所示:

df.write.option("forceSchema", myCustomSchemaString).avro("/path/to/outputDir")
 类似资料:
  • 我正在构建一个电子商务应用程序,我目前正在处理两个数据馈送:订单执行和销售中断。由于各种原因,销售失败将是无效的执行。失败的销售将具有与订单相同的订单编号,因此连接位于订单编号和行项目编号上。 目前,我有两个主题-,和。两者都是使用Avro模式定义的,并使用SpecificRecord构建的。键是。 订单的字段:订单编号,时间戳,订单行,项目编号,数量 的字段: 通过运行 我需要将与左连接,并在输

  • 我有一个Apache AVRO IDL,它定义了我想在java客户机和用Python编写的服务器之间使用的协议。 对于Python,我使用这个: 如何将IDL编译成Java?如果可能,不使用maven。

  • 如何编写java。util。映射到avro?在GenericData中,我看到了记录等的条目,但没有看到映射的条目。同样的问题也存在http://apache-avro.679487.n3.nabble.com/How-to-write-an-AVRO-map-Something-like-GenericData-Map-td3407527.html,但我不知道到底是怎么做到的。

  • 我是Avro架构的新手。我尝试使用kafka发布/消费我的java对象。我有java bean类,它包含LocalDateTime和byte[]的字段。如何在avro架构基元类型中定义两者?我可以用于LocalDateTime的最佳基元类型是什么? 我定义了这样的东西;但是 类强制转换异常[1] [1] Caused by: java.lang.ClassCastException: [B can

  • 问题内容: 我需要为AngularJS编写一个自定义模块,但是我找不到关于该主题的任何好的文档。如何为AngularJS编写一个可以与他人共享的自定义模块? 问题答案: 在这种情况下,您认为文档无法再为您提供帮助,一个很好的学习方法是查看其他已经构建的模块,看看其他人是如何做到的,他们如何设计架构以及如何将它们集成到其中。他们的应用。 在查看其他人的工作之后,您至少应该有一个起点。 例如,看看任何

  • Apache Avro为序列化提供了紧凑、快速、二进制数据格式和丰富的数据结构。但是,它要求用户为需要序列化的对象定义一个模式(在JSON中)。 在某些情况下,这是不可能的(例如:Java对象的类有一些成员的类型是外部库中的外部Java类)。因此,我想知道是否有一个工具可以从对象的.class文件中获取信息,并为该对象生成Avro模式(就像Gson使用对象的.class信息将某个对象转换为JSON