假设我将一个A-event
KStream聚合到一个A-snapshot
KTable,将一个B-event
KStream聚合到一个B-snapshot
KTable。a-snapshot
和b-snapshot
都不传递空值(删除事件被聚合为快照的状态属性)。此时,我们可以假设对于a-ktable
和b-ktable
聚合都有一个持久化的kafka changelog主题和一个rocksDB本地存储。然后,我的拓扑将A-KTABLE
与B-KTABLE
连接起来,生成一个连接的AB-KStream
。也就是说,我的问题是a-ktable
和b-ktable
物化生命周期(包括changelog主题和本地rocksdb存储)。假设A-event
主题和B-event
主题保留策略被设置为2周,那么有没有一种方法可以将kafka内部KTable物化主题保留策略(changelog和rocksDB)与上游事件主题删除保留策略一起产生副作用呢?否则,我们是否可以使用某种保留策略来配置KTable物化,以同时管理changelog主题和rockdb存储生命周期?考虑到我不能显式地发出a-ktable
和b-ktable
快照墓碑?我担心changelog和本地存储会无限增长,..,
目前,KStream不支持开箱即用功能,以根据源主题保留策略在Changelog主题中注入清理。默认情况下,它使用“紧凑”保留策略。
有一个开放的JIRA问题:https://issues.apache.org/JIRA/browse/kafka-4212
一个选择是注入墓碑消息,但这不是一个好方法。
如果是窗口存储,您可以使用“压缩,删除”保留策略。
我正在使用Apache Kafka streaming对从Kafka主题中消耗的数据进行聚合。然后,聚合被序列化到另一个主题,它本身被使用,结果存储在一个DB中。我想是很经典的用例吧。 聚合调用的结果是创建一个由Kafka变更日志“主题”备份的KTable。 这实际上是很好的/必要的,因为这避免了当将来的事件带有相同的键时丢失我的聚合状态。 然而,从长远来看,这意味着这个变更日志将永远增长(随着更
我在一个输入主题上构建KTable,并且在两个Kafka Stream应用程序实例上加入KStream。 KTable的输入主题已经是一个日志压缩主题。因此,当我的一个应用程序实例关闭时,通过读取input log compacted主题,另一个实例状态存储似乎会用整个状态刷新。 所以不需要为我的KTable存储启用日志记录(更改日志)? 我的源输入日志压缩主题可能有数百万条记录,所以如果我在KT
我有一个KTable,数据如下所示(key=>value),其中keys是客户ID,而value是包含一些客户数据的小型JSON对象: 我想对这个KTable做一些聚合,基本上保留每个的记录数。所需的KTable数据如下所示: 假设属于上面的组,她的生日使她进入了新的年龄组。支持第一个KTable的状态存储现在应该如下所示: 我希望得到的聚合KTable结果反映这一点。例如。 我可能过度概括了这里
如何识别主题的KTable物化何时完成? 例如,假设KTable只有几百万行。下面的伪代码: 在某个时间点,我想安排一个线程来调用以下内容,该内容写入主题:kt.toStream().to(“output_topic_name”); 跟进问题: 约束 1)好的,我看到kstream和ktable在kafkastream启动后是无界/无限的。但是,ktable物化(压缩主题)不会在指定的时间段内为同
我的流服务执行的操作很少: 在进行测试时,我发现我的服务在调用函数后中断了,该函数将把我的数据写入由Kafka Streams将KTable转换为Kafka Streams创建的新主题。 我检查了KStreams创建的主题,主题就在那里: 我发现有三个输入,即,我不知道第三个输入是什么: 为了确保所有内容都被覆盖,这里是我的配置: 我的问题是,我们的部署正在工作,突然所有的东西都开始出现这个错误:
我想加入一个 kstream:从主题创建,该主题具有JSON值。我使用值中的两个属性来重新键控流。示例值(json的片段)。我创建了自定义pojo类并使用自定义SERDES。 键映射为: 我查看了KStream并打印了键和我使用的属性。看起来都很好。 null 现在,当我执行内部连接并对主题进行窥视或通过/时,我看到键和值不匹配。Join似乎不起作用, 我有完全相同的东西通过ksql工作,但想做我