当前位置: 首页 > 知识库问答 >
问题:

闪烁中事件时间特性的滑动窗口

裘光启
2023-03-14

我是Flink的新手,需要方法的帮助。我有时间颗粒度为5分钟的事件流。我想通过调用rest API来获取事件的元数据,其中包含过去1小时数据点的历史事件,即过去12点(5分钟时间颗粒度)。

e、 g事件的时间戳为10:00、10:05、10:10、10:15等,因此如果我想获取时间戳为11:00的事件元数据,我将调用send发送所有时间戳为10:00、10:05、10:10、10:15的事件。。10: 55岁

我使用TimeCharacteristic实现了该方法。EventTime执行环境,并使用具有PeriodicWatermarks的AssignerWithPeriodicWatermarks提取事件的时间戳和延迟1小时的水印。

为了获得前面的要点,我创建了一个1小时的滑动窗口和5分钟的滑动窗口(假设1个事件将随窗口滑动)。我创建了ProcessAllWindowFunction,收集了所有窗口元素并调用了RESTAPI。然而,当我打印窗口元素时,我会得到大约400个事件时间戳。

看起来windows创建不正确。不确定问题是在代码中还是在我的方法中

共有1个答案

壤驷文华
2023-03-14

您是否正在使用allowedLateness?此功能可能导致车窗多次点火。

https://ci.apache.org/projects/flink/flink-docs-stable/dev/stream/operators/windows.html#allowed-迟到

 类似资料:
  • 我正在运行一个简单的示例来测试基于EventTime的Windows。我能够生成带有处理时间的输出,但当我使用EventTime时,没有输出。请帮助我明白我做错了什么。

  • 我有一个流系统,在这里我可以获得点击流数据。 数据格式: 我怎样才能做到这一点呢?基本上,我必须维护窗口中所有事件的状态,然后,一旦我获得事件,我必须从该状态获取价格。我并不要求任何工作解决方案,只是要求如何维护窗口中所有事件的状态。我也有一些自定义的Reduce操作。 在:我将2个事件数据加入到列表中。

  • 作业并行性(4,8,16):[自动生成源]-->[Map1]-->[滚动窗口(10s)]-->[Map2]-->[接收器] Flink窗口性能eps 4p、8p、16p 作业以上的性能最高达到了每秒50k+-左右,不管我如何将集群缩放成4-16的并行度。 闪烁性能无窗口4p、8p 我已经删除了窗口的逻辑,以消除瓶颈性能的应用程序逻辑,但似乎窗口仍然导致我的整个流性能下降,即使该窗口只是一个通过函数

  • 我正在阅读《Stream Processing with Apache Flink》一书,书中说:“从版本0.10.0开始,Kafka支持消息时间戳。当从Kafka版本0.10或更高版本读取时,如果应用程序以事件时间模式运行,使用者将自动提取消息时间戳作为事件时间戳*“因此在函数中,调用将默认返回Kafka消息时间戳?请提供一个简单的示例,说明如何实现AssignerWithPeriodicalW

  • 我需要根据一个键连接两个事件源。事件之间的间隔最长可达1年(即具有id1的event1可能在今天到达,而来自第二个事件源的具有id1的相应event2可能在一年后到达)。假设我只想输出连接的事件输出。 我正在探索在RocksDB后端使用Flink的选项(我遇到了表API,它们似乎适合我的用例)。我找不到做这种长窗口连接的引用体系结构。我希望系统一天能处理大约2亿个事件。 关于处理这种长窗口连接的任

  • 当特定时间过去后,如何在Flink中设置触发器以执行某些操作?每天下午1点的流量总和