我正在使用Flink流读取来自Kafka的数据,并对数据进行处理。在使用Kafka之前,当应用程序启动时,我需要使用DataSet API读取一个文件,并根据一些条件对文件进行排序,然后从中创建一个列表。然后开始以流媒体的方式从Kafka那里消费。我已经编写了一个逻辑,使用DataSet API从文件中读取数据并对其进行排序。但当我尝试调谐程序,它从来没有执行,闪烁立即开始消耗Kafka。有没有办
我想首先使用dataset API操作静态数据,然后使用DataStream API运行流作业。如果我在IDE上编写代码,它工作得很好。但是当我尝试在本地flink jobmanager上运行时(全部并行性1),流式代码从未执行过! 例如,以下代码不起作用: 执行计划:计划似乎是一个循环。
我有一个事件数据流和另一个模式数据流。模式是由用户在运行时提供的,它们需要通过一个Kafka主题来提供。我需要使用flink-cep在事件流上应用每个模式。在我事先不知道模式的情况下,有没有办法从数据流中获取PatternStream?
这是一个关于flink流的两个问题的主题,基于我自己做的实验,我需要一些澄清。问题是:
Apache Flink-“keyby”中的异常处理 根据第一个链接,用户说他在processfn中使用sideoutput来捕获错误,我也在我的程序中使用sideoutput来发送与模式不匹配的数据,但是我不知道如何处理错误和无效数据到相同的sideoutput 根据第二个链接,用户正在尝试添加一个sink到keyby函数和null key和printsink函数,这是我完全不理解的 1)任何关
================================= 对于FlinK表API和SQL同样的问题,如何在给定的键和公共窗口上连接三个或更多的表?官方文档https://ci.apache.org/projects/flink/flink-docs-release-1.5/dev/table/sql.html只给出了下面单表的示例。 我尝试编写如下所示的SQL,以便在给定的键和公共窗口上
我试图用以下链接中提供的信息将Cassandra作为Flink中的数据来源: null 异常跟踪-->
我有一个算法,在一些不同的字符串之间给我一个分数。我的想法是:如果两个字符串之间的分数高于0'80,那么这两个字符串将被认为是相同的,当我应用keyby(“name”)时,那些相似的字符串将被键入,因为它们具有完全相同的名称。 直观示例: DataStream1-----约翰·洛克,米奇·米克,威尔·威廉姆斯 希望你能理解,谢谢!
我需要用(userId)键控的缓慢变化的来丰富由(userId,startTripTimestamp)键控的快速变化的。 我使用带有数据流API的Flink1.8。我考虑两种方法: > 广播并通过用户ID和最新时间戳连接流。它是否等同于TableAPI中的DynamicTable?我可以看到这种解决方案的一些缺点:需要放入每个工作节点的RAM中,这会增加RAM的利用率,因为需要存储在每个工作节点的
此部分工作: 输出类似于 下面的代码是我遇到问题的部分,我不确定具体如何编码,但我认为应该是这样的:
我想在Apache Flink中制作一个流数据的时间窗口。我的数据看起来有点像这样: 但显然,Flink并不是将我的数据作为列表来阅读。它将其作为字符串读取,因此,我得到以下异常: 如何对字符串数据执行时间窗口,或者如何将此数据转换为元组?
我有M1核心的苹果操作系统和苹果笔记本空气。我想从这个文档操作游乐场用flink游乐场(flink 13)开始docker-comush链接 Docker文件-Dockerfile 我还试图执行 清单列表项中没有与linux/arm64/v8匹配的清单 然后我尝试将--platform=linux/amd64 maven:3.8-jdk-8-slim作为构建器添加到Dockerfile中,但有一个
我正在使用flink streaming和flink-connector-kafka处理来自Kafka的数据。当我用setStartFromTimestamp(1586852770000L)配置FlinkKafkaConsumer010时,此时kafka主题A中所有数据的时间都在1586852770000L之前,然后我向主题A的分区-0和分区-4发送一些消息(主题A有6个分区,当前系统时间已经在1
我仍然不能清楚地理解并行性,假设我们有一个有足够插槽的flink集群。在我们的flink工作中,我们使用来自3个不同kafka集群的3个kafka主题,每个主题有10个分区。
我有一个用例,其中数据将从kafkaTopic1流入程序(我们称之为P1),经过处理,然后持久化到数据库。P1将在一个多节点集群上,因此每个节点将处理大量的kafka分区(假设本主题有5个节点和50个kafka分区)。如果其中一个节点由于任何原因完全失败,并且有数据正在处理,那么该数据将丢失。 例如,如果kafkaTopic1上有500条消息,node2拉出了10条消息(因此根据偏移量要拉出的下一