当前位置: 首页 > 知识库问答 >
问题:

Kafka-具有批处理数据的事件与流之间的差异

程沛
2023-03-14

附加了一批数据的事件和偶尔发送数据的Kafka流有什么根本区别?它们可以互换使用吗?什么时候该用第一个,什么时候该用后一个?你能提供一些简单的用例吗?

注意:在这个问题的评论中有一些信息,但我想要一个更全面的答案。

共有1个答案

高玮
2023-03-14

我假设您考虑的是流和带有批处理数据的事件之间的“差异”:

  • 流:每个感兴趣的事件都会立即发送到流。因此,这些单个事件是细粒度的,大小很小(er)。
  • 带有数据批处理的事件:多个单独的事件被聚合到一个较大的批处理中,当批处理达到一定大小、经过了一定时间或业务事务完成时,批处理事件被发送到流中。因此,这些批处理事件的粒度更粗,大小更大(r)。

下面是我能想到的一系列特点:

 类似资料:
  • 事件 事件,就是文档与浏览器发生特定的 交互瞬间。JavaScript与HTML之间的交互就是通过事件实现的。 事件流 所谓事件流,就是接收页面事件的顺序。 事件流分 事件冒泡流 与 事件捕获流。事件冒泡流是IE开发团队提出的,捕获流是Netscape开发团队提出的。 事件冒泡流 所谓事件冒泡,就是事件开始时由 最具体的元素(文档中嵌套最深的那个 节点)接收,然后逐级向上传播到较为不具体的节点(文

  • Java8流与RxJava可观测数据类似吗? Java 8流定义:

  • 当前设置:Spark流作业处理timeseries数据的Kafka主题。大约每秒就有不同传感器的新数据进来。另外,批处理间隔为1秒。通过,有状态数据被计算为一个新流。一旦这个有状态的数据穿过一个treshold,就会生成一个关于Kafka主题的事件。当该值后来降至treshhold以下时,再次触发该主题的事件。 问题:我该如何避免这种情况?最好不要切换框架。在我看来,我正在寻找一个真正的流式(一个

  • 我在GCP数据流/Apache Beam中有一个PCollection。我需要将“按N”组合起来,而不是逐个处理它。类似于分组(N)。因此,在有界处理的情况下,它将按10个项目进行分组,最后一批是剩下的任何项目。这在Apache Beam中可能吗?

  • 我的问题是,我要比较Java中的两个ArrayList 例如 通过比较方法,我知道这些数组是不同的 (如果数组具有相同的元素,即使它们的顺序不同,我的方法也返回false,如果它们具有相同的元素,则返回true) 因此,该方法将返回FALSE 我的问题是: 请注意,我将在这些ArrayList中包含多个对象,而且方法效率也很重要(不是很重要,但至少很重要)。我在这里看到了答案,但我不确定哪一个更好

  • 我将一些事件转发给Kafka并启动了我的Kafka流程序。我的程序开始处理事件并完成。一段时间后,我停止了我的Kafka流应用程序并重新开始。观察到我的Kafka流程序正在处理已经处理过的先前事件。 根据我的理解,Kafka流在内部维护每个应用程序id的输入主题本身的偏移量。但在这里重新处理已经处理的事件。 如何验证Kafka流处理的偏移量?Kafka流是如何保存这些书签的?根据什么 如果Kafk