当前位置: 首页 > 知识库问答 >
问题:

闪烁检查点间隔和状态大小

柯学
2023-03-14

感谢任何能帮助你回答问题的人。

共有1个答案

邴越彬
2023-03-14

有很多因素可以影响检查点性能,包括您正在运行哪一个版本的Flink,您正在使用哪一个状态后端以及它是如何配置的,以及涉及哪种时间窗口(例如滑动窗口和滚动窗口)。当涉及状态的TB时,增量检查点可能会产生巨大的影响。

一个可能产生很大影响的因素是不同时间间隔所涉及的不同键的数量。您已经指出了这些是键控窗口,我希望在一个小时的过程中,使用的键比一分钟内使用的键要多得多。当第一个事件被分配给窗口时,创建窗口是懒洋洋的,因此为一个小时长的窗口创建的键控窗口要比为一分钟长的窗口创建的键控窗口多得多。同样的效果也会出现在一整天的键控窗口上,但程度较小。

在检查点处理过程中,作业的每个操作符都会经历一个(希望是短暂的)html" target="_blank">同步阶段,而不管大部分检查点是同步还是异步完成的。使用基于堆的状态后端,同步和异步快照都受到支持--您需要异步快照以获得最佳性能。

 类似资料:
  • 我正在阅读 https://ci.apache.org/projects/flink/flink-docs-release-1.13/docs/dev/table/sql/queries/joins/#interval-连接, 它有以下例子: 我有以下两个问题: > < li> 如果< code>o.order_time和< code>s.ship_time是正常时间列,而不是事件时间属性,那么所

  • 我正在开发一个简单的聚合,它对给定资源上发生的事件总数进行汇总(请参阅:在flink中计算总数并定期发射)。在一些人的帮助下,我成功地完成了这项工作,但现在我遇到了另一个问题。 我试图计算资源生命周期的总数,但我正在从保留期为24小时的kinesis流中读取事件。因为这意味着我无法访问在此之前发生的事件,所以我需要从一个每天计算一次总数的遗留(批处理)系统引导我的状态。 基本上,我希望以某种方式从

  • 2)我研究了循环分区的重新平衡。假设我建立了一个集群,如果我的源的并行度为1,如果我进行了重新平衡,我的数据是否会在机器之间进行重排以提高性能?如果是这样,是否有一个特定的端口将数据传送到集群中的其他节点? 3)状态维护有什么限制吗?我计划维护一些用户id相关的数据,这些数据可能会变得很大。我读到flink使用rocks db来维护状态。只是想检查一下是否有限制可以维护多少数据? 4)同样,如果数

  • 我有以下CEP PatternStream,其中数据流是基于实体ID分区的,因为只有实体具有相同的实体ID时,我才对模式匹配感兴趣: 但随后我注意到检查点状态大小随着实体ID数量的增加而增加。如果我对检查点的理解是正确的,这是意料之中的,因为运算符状态的数量会增加。但我想弄清楚是否有其他方法可以最小化检查点状态大小。 > 有没有不同的方法来实现这种模式匹配,而不根据实体ID对数据流进行分区?

  • 我有一个关于在Kinesis流中分片数据的问题。我想在向我的kinesis流发送用户数据时使用一个随机分区键,这样碎片中的数据是均匀分布的。为了使这个问题更简单,我想通过在Flink应用程序中键入用户ID来聚合用户数据。

  • 这是因为在开发模式下,为了通过 Webpack 实现热加载,CSS代码是打包在 JavaScript 代码中,并动态打到页面中去,从而元素重绘引起了闪烁。 不用担心,在生产模式下,CSS代码会单独打包至独立的文件并置于head标签内,不会出现页面闪烁的现象。