当前位置: 首页 > 知识库问答 >
问题:

spark kafka集成检查点重用

丁良骏
2023-03-14

我使用http://spark.apache.org/docs/latest/streaming-kafka-integration.html中的方法2,我使用检查点,当我必须更改代码和重新部署代码时,有时检查点会抛出异常,如果出于某种原因,我必须删除检查点目录,我如何重用检查点目录文件夹从kafka获取消息,我认为检查点目录存储了kafka偏移量。

共有1个答案

东方俊材
2023-03-14

是的,我看到了。在使用检查点时,重新编译的代码有时会引发异常(非常奇怪的异常)。

公平地说,检查点的意义在于,如果存在与数据相关的问题,您应该能够从中恢复。

是:当您为KafkaDstream执行检查点操作时,您的偏移量会被存储。所以当你康复的时候,你就从你最后离开的地方开始。

如果您想要对Kafka偏移量进行更细粒度的控制,请看看Cody的示例。他就是那个写直接Kafka德流的人。

 类似资料:
  • 1. 集成关键点 目前诸葛数据采集主要分为事件、identify(用户属性)两个维度。 事件:用户的一切行为可定义为事件,具体信息可记为属性和属性值。 identify:可自定义上传用户属性,用户触发identify为实名用户,反之为匿名用户,一般在登录\注册的地方采集。若需要为匿名用户分配id,切记不同用户identify的id不要相同。若相同,诸葛会默认为这是同一个用户。 采集时机:采集时机一

  • 主要内容:使用检查点恢复检查点(checkpoint)是一种机制,其中所有先前的日志都从系统中删除并永久存储在存储磁盘中。 检查点就像一个书签。 在执行事务时,标记此类检查点,然后使用事务的步骤执行事务,将创建日志文件。 当它到达检查点时,事务将更新到数据库中,直到那时,整个日志文件将从文件中删除。 然后使用新的事务步骤更新日志文件,直到下一个检查点,依此类推。 检查点用于声明DBMS处于一致状态之前的一个点,并且所有事

  • 我想在flink中测试一次端到端的处理。我的工作是: Kafka资料来源- 我在mapper1中放了一个< code > thread . sleep(100000),然后运行了这个作业。我在停止作业时获取了保存点,然后从mapper1中删除了< code > thread . sleep(100000),我希望该事件应该会被重放,因为它没有下沉。但这并没有发生,乔布斯正在等待新的事件。 我的Ka

  • 我需要使用AEM查询生成器检索父节点。 例如,这是我的问题: 此查询允许我检索以下元素: 使用此查询,可以检索放置在 /content/test/us/bar下的所有元素,这些元素包含8003170008212作为产品属性的值。 从前面的项目符号开始,我只需要返回父节点,例如: 我可以通过编程实现我的目标,迭代结果并使用3次getParent()方法。 我想知道:有没有一种方法可以通过查询生成器获

  • 简而言之,我想从一开始就对Kafka的数据重新运行Flink管道。 Flink0.10.2,Kafka0.8.2。 我在Kafka中有一个保留2小时的推文主题,以及Flink中的一个管道,该管道以每10秒5分钟的滑动窗口计算推文。 如果我中断管道并重新运行它,我希望它重新读取旧推文,从而发出价值5分钟的推文计数。相反,它似乎从新到达的推文重新开始,因此需要5分钟才能计数为“处于状态”。 我已经尝试