当前位置: 首页 > 知识库问答 >
问题:

Java Kafka结构化流

扶冠宇
2023-03-14
Dataset<Row> df = spark
                .read()
                .format("kafka")
                .option("kafka.bootstrap.servers", "localhost:9092")
                .option("subscribe", "test-reader")
                .option("enable.auto.commit", true)
                .option("kafka.group.id", "demo-reader") //not sure about the one to use
                .option("group.id", "demo-reader")
                .option("startingOffset", "latest")
                .load()

批处理查询中似乎不支持“最新”。我想知道是否有可能用另一种方法做类似的事情(不直接处理偏移)

共有1个答案

梁丘钊
2023-03-14

对于startingoffsets,是否可以尝试使用最早而不是最新,如下例所示:

Dataset<Row> df = spark
  .read()
  .format("kafka")
  .option("kafka.bootstrap.servers", "localhost:9092")
  .option("subscribe", "test-reader")
  .option("enable.auto.commit", true)
  .option("kafka.group.id", "demo-reader") //not sure about the one to use
  .option("group.id", "demo-reader")
  .option("startingOffsets", "earliest")
  .option("endingOffsets", "latest")
  .load();

请参阅火花单据

根据文档,您应该使用“最新的”来表示流,“最早的”来表示批处理。

 类似资料:
  • 本文向大家介绍结构化,半结构化和非结构化数据之间的差异,包括了结构化,半结构化和非结构化数据之间的差异的使用技巧和注意事项,需要的朋友参考一下 在大数据方面,我们知道它处理大量数据及其执行。简而言之,我们可以说大数据是一种处理大量数据的事物,并且由于数据量如此之大,因此从广义上讲,根据数据的组织方式定义了三类,即结构化,半结构化和非结构化数据。 现在,根据组织数据的级别,我们可以发现这三种类型的数

  • 原文:Structured arrays 介绍 结构化数组其实就是ndarrays,其数据类型是由组成一系列命名字段的简单数据类型组成的。 例如: >>> x = np.array([('Rex', 9, 81.0), ('Fido', 3, 27.0)], ... dtype=[('name', 'U10'), ('age', 'i4'), ('weight', 'f4

  • 在过去的几个月里,我已经使用了相当多的结构化流来实现流作业(在大量使用Kafka之后)。在阅读了《Stream Processing with Apache Spark》一书之后,我有这样一个问题:有没有什么观点或用例可以让我使用Spark Streaming而不是Structured Streaming?如果我投入一些时间来研究它,或者由于im已经使用了Spark结构化流,我应该坚持使用它,而之

  • 建筑师设计大楼时,要采用前人的智慧,程序员设计程序时也要采用前人的智慧。我们的领域  比建筑领域要年轻,我们的集体智慧也比较少。前面曾介绍过,结构化编程产生的程序比非结构化编程的程序更容易理解,因此更容易测试、调试与修改,并在数学意义上更加正确。 图2.32总结了C++控制结构。图中的小圆表示每个结构的单入口点和单出口点。任意连接各个流程图符号可能造成非结构化编程。因此,编程专业人员选择用流程图符

  • 问题内容: 在SQL中,“结构化”一词是什么意思? 是否因为此(SQL)语言语句被组织为子句,表达式和谓词? 由于这个组织,它被称为“结构化”吗? 问题答案: 最初的全名是SEQUEL,代表“结构化英语查询语言”。由于商标问题,后来不得不将其重命名为SQL。 因此,基本上,这是将编程语言出售为“就像英语一样,除了具有正式语法外”的另一种尝试(因此称为“结构化”)。

  • 20世纪60年代,许多大型软件的开发遇到了严重困难。常常推迟软件计划,因而使成本大大超过预算,而且最终产品也不可靠。人们开始认识到,软件开发是项复杂的活动,比原来所预想的要复杂得多。20世纪60年代的研究结果是结构化编程(structured programming)的出现,用规定的方法编写程序比非结构化编程能产生更清晰、更容易测试/调试以及更容易修改的程序。本书的第2章将介绍结构化编程原理。第3