具有独特消息模式的Spark结构化流媒体多个Kafka主题

林烨烨

2023-03-14

{
  "source": "Application A",
  "schema": [{"col_name": "countryId", "col_type": "Integer"}, {"col_name": "name", "col_type": "String"}],
  "message": {"countryId": "21", "name": "Poland"}
}

共有1个答案

晁砚

2023-03-14

当用你的kafka生产者发送这些事件时，你也可以发送一个键和值。如果每个事件都有它的事件类型作为键，那么当从主题读取流时，您还可以获得键：

val kafkaKvPair = spark
  .read
  .format("kafka")
  .option("kafka.bootstrap.servers", "host1:port1,host2:port2")
  .option("subscribe", "topic1")
  .load()
  .selectExpr("CAST(key AS STRING)", "CAST(value AS STRING)")
  .as[(String, String)]

然后，您只需筛选要处理的事件：

val events = kafkaKvPair
  .filter(f => f._1 == "MY_EVENT_TYPE")

这样，如果您在一个Spark应用程序中订阅了多个主题，您可以处理任意多个事件类型。

类似资料：

在spark流媒体/结构化流媒体中阅读来自Kafka的avro消息

我第一次使用pyspark。Spark版本：2.3.0Kafka版本：2.2.0 我有一个Kafka制作人，它以avro格式发送嵌套数据，我正试图在pyspark中编写spark流/结构化流的代码，它将来自Kafka的avro反序列化为数据帧，并进行转换，将其以拼花格式写入s3。我在spark/scala中找到了avro转换器，但pyspark中的支持尚未添加。如何在pyspark中转换相同的值。
结构化流媒体：同时阅读多个Kafka主题
使用Spark 2.0.2（结构化流媒体）从Kafka读取Avro消息

我有一个 spark 2.0 应用程序，它使用火花流（使用火花流-kafka-0-10_2.11）从 kafka 读取消息。结构化流看起来很酷，所以我想尝试迁移代码，但我不知道如何使用它。在常规流中，我使用kafkaUtils创建Dstrean，在我传递的参数中，它是值deserializer。在结构化流中，文档说我应该使用DataFrame函数进行反序列化，但我不知道这到底是什么意思。我
Scala:从spark结构化流媒体读取Kafka Avro消息时出错

我一直在用Scala 2.11阅读spark structured streaming（2.4.4）中Kafka的avro序列化消息。为此，我使用了spark avro（下面的dependency）。我使用合流Kafka库从python生成Kafka消息。Spark streaming能够使用模式来使用消息，但无法正确读取字段的值。我准备了一个简单的例子来说明这个问题，代码在这里可用：https:
Kafka结构化流媒体java.lang.NoClassDefFoundError

我以前能够运行Kafka结构流编程。但是突然间，我所有的结构流python程序都失败了，出现了一个错误。我从Spark网站上拿了基本的Kafka结构流式编程，也以同样的错误失败。 spark-submit--packages org.apache.spark:spark-sql-kafka-0-102.11:2.2.0c:\users\ranjith.gangam\pycharmprojects\
Spark结构流媒体-联合两个或多个流媒体源

这是因为检查点只存储了其中一个数据流的偏移量吗？浏览Spark结构流文档，似乎可以在Spark 2.2或>中进行流源的联接/联合

具有独特消息模式的Spark结构化流媒体多个Kafka主题

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档