当前位置: 首页 > 知识库问答 >
问题:

带kafka 0.11的Spark流1.6

胡桐
2023-03-14

我已经将kafka代理从0.8升级到0.11,现在我正在尝试升级火花流作业代码以与新的kafka兼容-我正在使用火花1.6.2-。

我搜索了很多步骤来执行此升级,我没有找到任何官方或非官方的文章。

我发现唯一有用的文章是这篇,但是它提到了spark 2.2和kafka 0.10,但是我得到一行文字说

但是,由于较新的集成使用新的 Kafka 使用者 API 而不是简单的 API,因此在用法上存在显著差异。此版本的集成被标记为实验性,因此 API 可能会发生变化

有没有人尝试过把spark streaming 1.6和kafka 0.11集成,或者是把spark first升级到2更好?因为缺乏关于spark-streaming和kafka混合版本的信息和支持?

共有1个答案

孟韬
2023-03-14

经过大量调查,发现没有办法做到这一步,因为火花流只支持高达0.10的kafka版本(这与kafka 0.11,1.0.X有重大区别)。

这就是为什么我决定从火花流转向使用新的kafka流api,简单地说,它很棒,使用简单,非常灵活,最大的优势是:IT是一个库,您可以简单地将其添加到您的项目中,而不是包装代码的框架。

Kafka-streaming api几乎支持spark提供的所有功能(聚合、开窗、过滤、MR)。

 类似资料:
  • 新的Kafka版本(0.11)只支持一次语义。 https://cwiki.apache.org/confluence/display/KAFKA/KIP-98-精确一次交付和事务消息传递 我有一个用java编写的kafka事务代码制作程序,如下所示。 我不太确定如何使用sendOffsetsToTransaction及其预期用例。AFAIK,消费者组是消费者端的多线程读取功能。 javadoc说

  • 我已经设置了Spark结构流(Spark 2.3.2)来阅读Kafka(2.0.0)。如果消息在Spark流作业开始之前进入主题,我无法从主题的开始消费。Spark streaming会忽略在初始运行Spark Stream作业之前产生的Kafka消息(即使使用。选项(“StratingoffSets”、“reasly”)),这是否是预期的Spark streaming行为? > 在开始流作业之前

  • 我是一个初学者,试图使用spark streaming获得推文,使用Scala和一些过滤器关键字。是否有可能在流媒体之后只过滤那些没有地理定位为Null的推文?我正在尝试保存ElasticSearch中的推文。所以,在将tweet地图保存到ElasticSearch之前,我可以过滤那些带有地理定位信息的地图,然后保存它们吗?我正在使用json4s.jsondsl和tweet中的字段创建JSON。这

  • 我使用的是Neo4J/Cypher,我的数据大约是200GB,所以我想到了可伸缩的解决方案“Spark”。 使用spark制作neo4j图形有两种解决方案: 1)Apache Spark密码(CAPS) > 拾取数据 丢弃数据帧和 行程数据帧

  • 在过去的几个月里,我已经使用了相当多的结构化流来实现流作业(在大量使用Kafka之后)。在阅读了《Stream Processing with Apache Spark》一书之后,我有这样一个问题:有没有什么观点或用例可以让我使用Spark Streaming而不是Structured Streaming?如果我投入一些时间来研究它,或者由于im已经使用了Spark结构化流,我应该坚持使用它,而之

  • 因此,如何跨辅助节点对RDD进行分区,是将被分区的单个RDD还是一个完整的批处理。 我可能拿错了。请指引我