当前位置: 首页 > 知识库问答 >
问题:

Apache Beam如何管理驱动检查点?

高宇定
2023-03-14

我有一个在Apache Beam(使用Spark Runner)中开发的流媒体管道,它从kinesis流中读取。

我正在Apache Beam中寻找管理kinesis检查点的选项(即定期存储kinesis流的当前位置),以便允许系统从故障中恢复,并在流中断的地方继续处理。

Apache Beam是否有类似于Spark Streaming(参考链接-https://spark.apache.org/docs/2.2.0/streaming-kinesis-integration.html)的支持运动检查点的规定?

共有1个答案

夹谷鸿福
2023-03-14

因为kinesio是基于无限源的。CheckpointMark,它使用标准的检查点机制,由Beam UnboundedSource提供。无界恐怖分子。

一旦读取了KinesRecord(实际上,从记录队列中拉出来,该记录队列通过实际从Kinesis shard中提取记录来单独馈送),则将使用记录序列号更新shard检查点,然后根据运行程序对无界源的实现和检查点处理,将保存该检查点。

Afaik,Beam Spark Runner为此目的使用火花状态机制。

 类似资料:
  • 假设我试图将添加到文件。 我想知道< code >库A的版本是否由插件< code > io . spring . dependency-management 管理。 我没有给出具体的库,因为特定库的答案不是我正在寻找的

  • 我有一个数据流工作,将单个文件分割成x个记录(表)。这些流在bigQuery没有问题。 不过,我发现没有办法在结果出来后执行管道中的另一个阶段。 举个例子 根据上述内容,我希望运行以下内容: 是有无论如何运行管道的另一个部分后,up到bigQuery或这是不可能的?提前感谢。

  • 问题内容: 目前,我的代码(PHP)中包含太多SQL查询。例如… 我正在研究使用存储过程来减少这种情况并使事情变得更健壮,但是我有一些担忧。 我在网站上使用了数百种不同的查询,其中许多非常相似。将所有这些查询从上下文(使用结果的代码)中删除并放在数据库的存储过程中时,我应该如何管理这些查询? 问题答案: 最佳的操作方法取决于您如何进行数据访问。您可以采用三种方法: 使用存储过程 将查询保留在代码中

  • 问题内容: 因此,我有使用Firefoxseleniumwebdriers的c#winform。 基本上我需要它来检查元素是否存在以及是否不单击其他元素。如果有视频,观看后会变成W_VIEWED 这是我到目前为止所得到的 错误3仅赋值,调用,递增,递减,等待和新对象表达式可以用作语句242 C#selenium的新种类。谢谢你的帮助。 问题答案: 您可以检查元素出口或不使用 请记住,如果找不到元素

  • 我需要关于在某个测试用例中等待元素的帮助。在其中一个测试中,我检查了拨号器上电话号码的准确性。在我按下应用程序中的按钮后,拨号程序将打开。问题是,要从拨号器返回应用程序,我必须按几次返回键,但次数可能因设备而异。 所以我所做的就是检查我现在在哪里。请看下面的代码。问题是,如果找不到元素,则 函数开始运行,然后我必须等待10秒,直到它结束。 你会建议我做什么来防止系统这次等待。 测试: 等待司机。

  • 问题内容: 我想知道如何检测USB驱动器。但是我想知道我们是否可以用来检查USB驱动器。我读过的帖子确实解释了如何使用,但我不太了解。如果有人可以提供示例,那就太好了。谢谢。 问题答案: 您可以使用File.listRoots()方法。 这里的问题是,您将需要一个名称或其他信息来将驱动器标识为USB驱动器。否则,您无法使用这种方法告诉普通驱动器和USB驱动器。