当前位置: 首页 > 知识库问答 >
问题:

将Kafka中的Avro直接转换为拼花地板到S3

汪安宁
2023-03-14

我有以Avro格式存储的Kafka主题。我想使用整个主题(在收到时不会更改任何消息)并将其转换为Parket,直接保存在S3上。

我目前正在这样做,但它要求我每次消费一条来自Kafka的消息,并在本地机器上处理,将其转换为拼花文件,一旦整个主题被消费,拼花文件完全写入,关闭写入过程,然后启动S3多部分文件上传。或《Kafka》中的阿夫罗-

我想做的是《Kafka》中的阿夫罗-

注意事项之一是Kafka主题名称不是静态的,需要在参数中输入,使用一次,然后再也不用了。

我已经调查了阿尔帕克卡,这似乎是可能的-但不清楚,我没有看到任何例子。有什么建议吗?

共有1个答案

帅彦
2023-03-14

您刚才描述了Kafka连接:)

Kafka Connect是Apache Kafka的一部分,带有S3连接器插件。尽管如此,目前拼花地板支架的开发仍在进行中。

有关Kafka Connect中的底漆,请参阅http://rmoff.dev/ksldn19-kafka-connect

 类似资料:
  • 我正在从Impala迁移到SparkSQL,使用以下代码读取一个表: 我如何调用上面的SparkSQL,这样它就可以返回这样的东西:

  • 我是大数据生态系统的新手,有点起步。 我读过几篇关于使用spark流媒体阅读Kafka主题的文章,但我想知道是否可以使用spark作业而不是流媒体阅读Kafka主题?如果是的话,你们能帮我指出一些可以让我开始学习的文章或代码片段吗。 问题的第二部分是以拼花格式向hdfs写信。一旦我读了Kafka的书,我想我会有一个rdd。将此rdd转换为数据帧,然后将数据帧写入拼花文件。这是正确的方法吗。 感谢您

  • Kafka是否将S3支持从JSON连接到Parquet?感谢使用Kafka Connect S3提供的可用和替代建议

  • 我将火花数据框保存为拼花文件,数据框具有从avro对象构建的行。相同的确切代码在这里-https://stackoverflow.com/a/41491999/2440775 我面临的挑战是,我希望能够在传入数据中缺少整数字段时具有空值。Avro似乎允许使用Union类型,但当我不指定默认值或在avsc中指定默认值为"null"时,我会得到以下错误: 如果我写一个默认值“0”,那么it saveA

  • 我看到Kafka Connect可以以Avro或JSON格式写入S3。但是没有Parket支持。添加这个有多难?