问题：

Flink作业群集Kubernetes从保存点恢复

容修贤

2023-03-14

我们目前正在kubernetes上运行flink，作为使用这个helm模板的作业集群：https://github.com/docker-flink/examples/tree/master/helm/flink（带有一些添加的配置）。

如果我想关闭集群，重新部署新映像（由于应用程序代码更新）并重新启动，我将如何从保存点进行恢复？

jobManager命令严格设置在standalone-job.sh命令上，如果我在部署k8s资源的参数中添加一个保存点，那么如果flink重新启动（由于一些系统误差），它将始终从该保存点重新启动，这不是我们想要的。

有没有办法从最新的保存点恢复，如果该保存点不存在，它将从kubernetes作业集群helm配置重新开始？

共有1个答案

厍胤运

2023-03-14

我不认为我理解你的全部设置，但我从你的问题中读到你有你的Flink集群

您可以定期创建保存点，并使用最新的保存点id更新配置。

Flink恢复脚本不应指向特定的保存点，而应指向始终包含最新保存点id的配置值。

根据Flink作业的变化，从保存点恢复并非总是可能的，因此您也需要考虑这种情况。

类似资料：

如何从检查点恢复Flink Sql作业？

我正在检查Flink Sql Table与kafka连接器是否可以在EXACTLY_ONCE模式下执行，我的方法是创建一个表，设置合理的检查点间隔，并在event_time字段上使用简单的翻滚函数，最后重新启动我的程序。以下是我的详细进度： 1:创建一个Kafka表 2：启动我的 Flink 作业，如下所示配置 3：执行我的sql 如我们所见，翻转窗口间隔为5分钟，检查点间隔为30秒，每个翻转窗
Kubernetes中的Flink会话集群和作业提交

我们的团队在我们的K8S集群中设置了Flink会话集群。我们选择Flink会话集群而不是作业集群，因为我们有许多不同的Flink作业，因此我们希望将Flink的开发和部署与我们的作业分离。我们的Flink设置包含：单个JobManager作为K8S吊舱，无高可用性（HA）设置我们在一个单独的存储库中开发工作，并在代码合并时部署到Flink集群。现在，我们注意到在K8S中作为pod的JobMa
为什么flink无法从保存点恢复

版本flink 1.7 我正在尝试从保存点（或检查点）还原flink作业，该作业所做的是读取kafka的内容- 我使用rocksdb和启用的检查点。现在我尝试手动触发一个保存点。每个聚合的预期值为30（1个数据/每分钟）。但是当我从保存点（flink run-d-s{url}）恢复时，聚合值不是30（小于30，取决于我取消flink作业和恢复的时间）。当作业正常运行时，它得到30。我不知道为什
Flink Statefun HA kubernetes集群

我正在尝试在kubernetes上部署高可用的flink集群。在下面的示例中，工作节点被复制，但我们只有一个主pod。 https://github.com/apache/flink-statefun 据我所知，有两种方法可以让job manager成为HA。 https://ci.apache.org/projects/flink/flink-docs-stable/ops/jobmanager
使用flink/kubernetes替换etl作业（在SSI上）：每个作业类型一个flink集群，或者每个作业执行创建和销毁flink集群

我正在尝试将使用SSIS包创建的数百个feed文件ETL作业替换为apache flink作业（并将kuberentes作为底层infra）的可行性。我在一些文章中看到的一条建议是“为一种工作使用一个flink集群”。由于我每天都有少量的每种工作类型的工作，那么这意味着对我来说最好的方法是在执行工作时动态创建flinkcluster并销毁它以释放资源，这是正确的方法吗？我正在建立flinkclu
运行Apache Flink作业时K8s群集内存减少

我们正在尝试在K8s集群上部署apache Flink作业，但我们注意到一个奇怪的行为，当我们开始我们的作业时，任务管理器内存以分配的数量开始，在我们的例子中是3 GB。最终，内存开始减少，直到达到约160 MB，此时，它会恢复一点内存，所以不会达到其极限。这种非常低的内存通常会导致作业因任务管理器心跳异常而终止，即使在尝试查看Flink仪表板上的日志或执行作业流程时也是如此。为什么它的内存

Flink作业群集Kubernetes从保存点恢复

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档