问题：

如何最小化Flink检查点状态大小

曾珂

2023-03-14

我有以下CEP PatternStream，其中数据流是基于实体ID分区的，因为只有实体具有相同的实体ID时，我才对模式匹配感兴趣：

PatternStream<EntityMetric> patternStream = CEP.pattern(inputStream.keyBy(EntityMetric.ATTR_ENTITY_ID), thresholdPattern);

但随后我注意到检查点状态大小随着实体ID数量的增加而增加。如果我对检查点的理解是正确的，这是意料之中的，因为运算符状态的数量会增加。但我想弄清楚是否有其他方法可以最小化检查点状态大小。

有没有不同的方法来实现这种模式匹配，而不根据实体ID对数据流进行分区？

共有1个答案

叶建柏

2023-03-14

你的问题没有一个简单的答案。首先，你想要最小化的状态的大小是多少？

状态的大小随着实体ID的数量而增加并不完全正确，而是随着找到的部分匹配的数量而增加。如果某些ID没有部分匹配，则不会增加状态的大小。因此，我建议您坚持使用keyedstream。

使用FlinkCEP时，不留下一些悬空状态非常重要，这些状态可以通过followedbyany或zeroormore创建。避免留下悬空状态的最简单方法是在中使用设置模式的时间限制，这样所有超时模式都将被剪除。其他可能性是使用确定性邻接性，如next或followedby，并在循环模式上使用untial条件。

类似资料：

闪烁检查点间隔和状态大小

感谢任何能帮助你回答问题的人。
Flink如何处理IterativeStream中的检查点和状态？

我可以在文档中看到： Flink目前只为没有迭代的作业提供处理保证。对迭代作业启用检查点会导致异常。为了在迭代程序上强制检查点，用户需要在启用检查点时设置一个特殊的标志：env.enablecheckpointing（interval,force=true）。如果是一个而不是一个（这意味着它也可以保存状态），会有什么变化吗？
非键控流的Flink检查点状态

我对闪身是个新手。我正在尝试在我的应用程序中启用检查点和状态。我从Flink文档中看到了我们是如何存储键控状态的。但是我想知道我们是否可以存储非键控状态（的状态）
Flink 状态管理与检查点机制

一、状态分类相对于其他流计算框架，Flink 一个比较重要的特性就是其支持有状态计算。即你可以将中间的计算结果进行保存，并提供给后续的计算使用：具体而言，Flink 又将状态 (State) 分为 Keyed State 与 Operator State： 2.1 算子状态算子状态 (Operator State)：顾名思义，状态是和算子进行绑定的，一个算子的状态不能被其他算子所访问到。官方
Flink窗口状态大小和状态管理

在阅读了Flink的文档并四处搜索后，我无法完全理解Flink的句柄在其窗口中的状态。假设我有一个每小时滚动的窗口，其中包含一个聚合函数，该函数将消息累积到某个java pojo或scala case类中。该窗口的大小将与一小时内进入该窗口的事件数量相关联，还是仅仅与POJO/Case类相关联，因为我将事件累加到该对象中。（例如，如果将10000个味精数成一个整数，大小会接近10000*味精大小还
Apache Flink-增量检查点-意外的CPs大小

源在内存中创建任意数量的事件，每秒吞吐量为1个事件。每个事件都有用于分区流的唯一id（使用keyBy运算符），并通过映射函数向托管状态（使用ValueState）添加约100KB。然后将事件简单地传递给不执行任何操作的接收器。使用上面描述的设置，我们发送了1200个事件，检查点间隔和最小暂停设置为5秒。当事件以恒定的速度和相等的状态量出现时，我们期望检查点的大小或多或少是恒定的。然而，我们观察到

如何最小化Flink检查点状态大小

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档