问题：

带kafka 0.11的Spark流1.6

胡桐

2023-03-14

我已经将kafka代理从0.8升级到0.11，现在我正在尝试升级火花流作业代码以与新的kafka兼容-我正在使用火花1.6.2-。

我搜索了很多步骤来执行此升级，我没有找到任何官方或非官方的文章。

我发现唯一有用的文章是这篇，但是它提到了spark 2.2和kafka 0.10，但是我得到一行文字说

但是，由于较新的集成使用新的 Kafka 使用者 API 而不是简单的 API，因此在用法上存在显著差异。此版本的集成被标记为实验性，因此 API 可能会发生变化

有没有人尝试过把spark streaming 1.6和kafka 0.11集成，或者是把spark first升级到2更好？因为缺乏关于spark-streaming和kafka混合版本的信息和支持？

共有1个答案

孟韬

2023-03-14

经过大量调查，发现没有办法做到这一步，因为火花流只支持高达0.10的kafka版本（这与kafka 0.11，1.0.X有重大区别）。

这就是为什么我决定从火花流转向使用新的kafka流api，简单地说，它很棒，使用简单，非常灵活，最大的优势是：IT是一个库，您可以简单地将其添加到您的项目中，而不是包装代码的框架。

Kafka-streaming api几乎支持spark提供的所有功能(聚合、开窗、过滤、MR)。

类似资料：

《Kafka0.11》中sendOffsetsToTransaction的含义

新的Kafka版本（0.11）只支持一次语义。 https://cwiki.apache.org/confluence/display/KAFKA/KIP-98-精确一次交付和事务消息传递我有一个用java编写的kafka事务代码制作程序，如下所示。我不太确定如何使用sendOffsetsToTransaction及其预期用例。AFAIK，消费者组是消费者端的多线程读取功能。 javadoc说
带有Kafka的Spark结构流不尊重startingoffset=“最早”

我已经设置了Spark结构流（Spark 2.3.2)来阅读Kafka(2.0.0)。如果消息在Spark流作业开始之前进入主题，我无法从主题的开始消费。Spark streaming会忽略在初始运行Spark Stream作业之前产生的Kafka消息（即使使用。选项（“StratingoffSets”、“reasly”）），这是否是预期的Spark streaming行为？ > 在开始流作业之前
Spark流媒体-过滤带有地理定位的流媒体后的推文

我是一个初学者，试图使用spark streaming获得推文，使用Scala和一些过滤器关键字。是否有可能在流媒体之后只过滤那些没有地理定位为Null的推文？我正在尝试保存ElasticSearch中的推文。所以，在将tweet地图保存到ElasticSearch之前，我可以过滤那些带有地理定位信息的地图，然后保存它们吗？我正在使用json4s.jsondsl和tweet中的字段创建JSON。这
带Spark的Geohash NEO4j图

我使用的是Neo4J/Cypher，我的数据大约是200GB，所以我想到了可伸缩的解决方案“Spark”。使用spark制作neo4j图形有两种解决方案： 1）Apache Spark密码(CAPS) > 拾取数据丢弃数据帧和行程数据帧
Spark流与结构化流

在过去的几个月里，我已经使用了相当多的结构化流来实现流作业（在大量使用Kafka之后）。在阅读了《Stream Processing with Apache Spark》一书之后，我有这样一个问题：有没有什么观点或用例可以让我使用Spark Streaming而不是Structured Streaming？如果我投入一些时间来研究它，或者由于im已经使用了Spark结构化流，我应该坚持使用它，而之
spark流中的RDD分区

因此，如何跨辅助节点对RDD进行分区，是将被分区的单个RDD还是一个完整的批处理。我可能拿错了。请指引我

带kafka 0.11的Spark流1.6

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档