我在数据流中使用“keyby”。我要flink发现每个键的所有kafka分区。我有30个分区
Flink通常不会将通过keyBy在流处理期间进行的分区与Kafka中的流存储层中存在的分区联系起来。如果对来自Kafka使用者的流使用keyBy,则每个用户的所有事件都将一起处理,而不管它们来自哪个Kafka分区。
我不明白你想做什么,但是你可以在留档中阅读Flink如何处理Kafka主题和分区发现。
我看到关于为每个密钥添加水印支持的讨论很多。但是flink支持每个分区的水印吗? 当前-然后考虑所有水印(非空闲分区)的最小值。因此,窗口中最后挂起的记录也被卡住了。(使用periodicemit增加水印时) 任何关于这方面的信息都非常感谢!
我在Flink有一个载荷,如下所示; 我想用指定的分区器将数据作为键值格式发送给kafka。对于分区器,我将使用模分区器。 模分配器示例; 让我们假设参数为3。如果我们可以使用上面定义的有效负载的memberId,那么partitionId应该是4%3 根据上面的分区器,我想将具有相同分区ID的数据发送到相同的Kafka主题。另一个例子; 如果(假设num分区=3); 如果我没说错的话,如果我们不
如果我是正确的,默认情况下,spark streaming 1.6.1使用单线程从每个Kafka分区读取数据,假设我的Kafka主题分区是50,这意味着每50个分区中的消息将按顺序读取,或者可能以循环方式读取。 案例1: -如果是,那么我如何在分区级别并行化读取操作?创建多个< code > kafkautils . createdirectstream 是唯一的解决方案吗? 案例2: -如果我的
我想打印Flink已开始读取的Kafka主题的每个分区的起始偏移量?
问题内容: 使用KTable时,当实例/使用者数等于分区数时,Kafka流不允许实例从特定主题的多个分区中读取。我尝试使用GlobalKTable实现此目的,但问题是数据将被覆盖,也无法对其应用聚合。 假设我有一个名为“ data_in”的主题,具有3个分区(P1,P2,P3)。当我运行Kafka流应用程序的3个实例(I1,I2,I3)时,我希望每个实例都从“ data_in”的所有分区中读取数据
我有一个带有15个分区的kafka主题[0-14],我正在运行带有5个并行的flink。因此,理想情况下,每个并行flink使用者应该分别使用3个分区。但即使在多次重启之后,很少有Kafka分区不被任何flink工人订阅。 注意:如果我以1个并行度开始作业,则作业工作非常好。 Flink版本:1.3.3