问题：

在Flink流中使用状态和窗口（时间）的区别

富念

2023-03-14

我可否问一问作出决定的理由是什么？我是否可以推断，如果数据的到达非常不规则（50%进入定义的窗口长度，而其他50%没有），窗口方法的结果更有偏差（因为50%的事件被丢弃）？

另一方面，在使用状态时，我们是否花费更多的时间检查和更新状态？

共有1个答案

史宸

2023-03-14

首先，这取决于你的语义...这两个例子使用了不同的语义，因此没有直接的可比性。此外，windows也在内部使用状态。很难说一般的方法是更好的方法。

由于Flink的窗口语义非常丰富，所以我会建议使用窗口。如果不能用windows表达语义，使用状态可以是一个很好的替代方法。使用windows，还有一个额外的优点，就是状态处理----很难正确完成----可以自动为您完成。

这个决定绝对独立于您的数据到达率。闪烁不会丢弃任何数据。如果您使用事件时间（而不是处理时间），那么结果将与数据到达率无关。

类似资料：

Flink窗口状态大小和状态管理

在阅读了Flink的文档并四处搜索后，我无法完全理解Flink的句柄在其窗口中的状态。假设我有一个每小时滚动的窗口，其中包含一个聚合函数，该函数将消息累积到某个java pojo或scala case类中。该窗口的大小将与一小时内进入该窗口的事件数量相关联，还是仅仅与POJO/Case类相关联，因为我将事件累加到该对象中。（例如，如果将10000个味精数成一个整数，大小会接近10000*味精大小还
Flink 流：从一个窗口，在另一个窗口中查找状态

我有两条流：测量 WhoMeasured（关于谁进行了测量的元数据）这些是它们的案例类：流包含大量数据。流几乎没有任何可用性。事实上，对于＜code＞who_measured_id＜/code＞流中的每个＜code＞who_。这本质上是一个哈希表，由流填充。在我的自定义窗口函数中这是我的工作。现在你可能会看到，有一些东西不见了：两个流的结合。因此，从本质上讲，这是一种查找表，当流中的新
在窗口关闭时清除 Flink 状态

这是我的代码。我的问题如下 > 以这种方式清除状态是否正确？这是使用keyBy的正确方法吗？ //有100万个storeId
如何在 Flink 1.7.1 Session Windows 中使用窗口状态

我正在构建一个具有以下目标的 Flink 应用程序：将事件收集到键控的非活动触发会话窗口中尽早发出输入事件的副本，并通过会话引用进行增强打开和关闭会话时发出会话更新以及收集的会话统计信息（在会话关闭时）通过滚动窗口，我已经能够实现上述目标，但在会话窗口中我没有成功。我的窗口处理代码如下来生成我正在使用的输入和当我使用会话窗口执行时，会出现以下异常：希望我错过了一个技巧，因为无法使
Flink中最大时间窗口的更新流

的结果是一个元素流-因此，我希望从这个流中获得一个“具有最高计数的key”的更新流。然后我通过一个常量(-因为这是一个全局操作）进行键控，并使用-这几乎可以实现：我得到一个最高计数流，但当前的最高计数是针对每个元素发出的。我想我要找的是某种带有前一个值的过滤器，它只会在新值与前一个值不同时才会发出元素。目前在Flink有可能吗？
带状态的Flink窗口聚合

我想使用早期触发逻辑进行窗口聚合(您可以认为聚合是由窗口关闭或特定事件触发的)，我阅读了文档:https://ci . Apache . org/projects/flink/flink-docs-release-1.12/dev/stream/operators/windows . html # incremental-window-aggregate-with-aggregate functi

在Flink流中使用状态和窗口（时间）的区别

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档