当前位置: 首页 > 知识库问答 >
问题:

Spark Kafka集成使用接收器与WAL

田骁
2023-03-14

我在Databricks上阅读下面的博客

https://databricks.com/blog/2015/03/30/improvements-to-kafka-integration-of-spark-streaming.html

在解释spark-kafka集成如何使用WAl接收器的过程时,它说

1.Kafka数据由在火花工作线程/执行程序中运行的Kafka接收器持续接收。这使用了Kafka的高级消费者 API。

2.接收到的数据存储在Spark的工作/执行器内存以及WAL(在HDFS上复制)中。只有在数据保存到日志中之后,Kafka接收器才将Kafka的偏移量更新为Zookeeper。

现在我的疑问是高级消费者如何在zookeeper中更新offset,因为高级消费者不处理offset,而是由zookeeper处理。因此,一旦我们使用zookeeper阅读了来自kafka的消息,zookeeper就会自动更新偏移量。

共有1个答案

郁承运
2023-03-14

因此,当消费者从kafka中的特定主题检索数据时,消费者有责任更新动物园管理员中的补偿。因此,当您使用自定义kafka消费者时,它有一个内置的kafka API(org.apache.kafka.clients.consumer.*就是这样做的),一旦您收到来自特定主题的数据,它就会更新偏移量。

在spark中基于接收器的方法的情况下,它使用Kafka的高级API来更新zookeeper中的偏移。

 类似资料:
  • 我使用的是spring Boot2.2.4-Release和spring integration 5.2.3,我使用的是IntegrationFlow和DSL,因为我需要配置几个IMAP服务器。 所以我写了这段代码: 其中是 通过设置,我可以在处理程序组件中处理,但我有一些问题。 null 我不知道是否应该做什么来告诉框架关闭文件夹 谁能给我提点建议吗? 谢谢你

  • 问题内容: 我很难理解为什么这些规则与指针类型.vs的方法集相关联。值类型 有人可以解释一下原因吗(从界面表的角度) (威廉·肯尼迪博客的摘录) 规格摘要 方法集 类型可能具有与之关联的方法集。接口类型的方法集是其接口。任何其他类型T的方法集都包含以接收者类型T声明的所有方法。相应指针类型 T的方法集是所有以接收者 T或T声明的方法的集合(也就是说,它还包含方法T集)。进一步的规则适用于包含匿名字

  • 问题内容: 对于我来说,目前尚不清楚,在这种情况下,我想使用值接收器而不是始终使用指针接收器。 回顾一下文档: 该 文档 还说:“对于基本类型,切片和小型结构之类的类型,值接收器非常便宜,因此,除非该方法的语义要求使用指针,否则值接收器是高效且清晰的。” 首先, 它说“非常便宜”,但问题是它比指针接收器便宜。因此,我做了一个小的基准测试(基于要点的代码),向我展示了,即使对于只有一个字符串字段的结

  • 我正在尝试创建一个TCP服务器,该服务器在端口5002上接受来自外部程序的消息。但是,它不接收来自外部程序的消息。 为了验证我的TCP服务器是否正常工作,我像这样使用了telnet,程序确实收到了文本“hello”。 设置wireshark时,我可以看到计算机正在端口5002上接收来自外部程序(我期待)的消息。为什么我的程序无法接收这些消息? 关于最终解决方案的最新情况: 由于负载没有停止线,我必

  • 如果要对流中的整数值求和,主要有两种方法: 第一个涉及装箱返回的整数 哪个更有效/更清晰?

  • 我正在构建一个名为“id”的查询参数,它是一个列表,所以我有类似于localhost:8080/application?id=1 (我知道我的方法不够,我需要写第一个?id=) 方法 我的问题是:为什么我收到这个错误在Collectors.joining(" 我正在使用OpenJDK