但是这种方法在最小的输入数据上特别慢,迭代版本需要<30秒,循环版本需要>3分钟。 我想flink无法创建执行循环的最佳计划。 有什么我应该尝试的变通方法吗?是否可以对flink进行一些修改,以便在hadoop等上保存部分结果?
所以我想知道为什么Flink需要很多内存。主要原因是什么?闪现本身的一些缺点?还是保存历史数据?或者别的什么? 我能用像Redis这样的东西来避免这个问题吗?
我对流/事件处理有些陌生,但我遇到了以下问题。 我正在处理来自Kafka的发票事件,有一个事件“时间戳”以及一个“Scheduledat”日期(时间戳),并希望对发票“总计”执行每日聚合。在传统DB中,我会执行以下操作: 然而,当在流上下文中考虑这一点时,我尝试使用'eventTime'(取自事件'timestamp')和1天窗口。问题是我真的很想使用'scheduled at‘时间戳,然而,它是
我使用Apache Flink1.4进行了这样的流设置,首先是DataStream,然后是keyBy,然后是window,然后是aggregate 聚合操作的输出是一个AggregateResult对象,因此现在结束时的流属于SingleOutputStreamOperator类型 接下来我要做的是一个scala FoldLeft。是否有提供该功能的操作员。
在Apache Flink中使用滑动时间窗口时,当窗口滑动时会重新计算窗口中的许多元组/元素。例如,假设一个窗口大小为5秒,滑动时间为1秒,则窗口内容的80%与上一个窗口的内容相同。 考虑一个数据流S,其元组由时间戳和整数值组成: , , , , , , ,... 假设t1、t2、t3、...表示连续时间戳,其中t2-t1=1秒。给定S,窗口大小为5秒、滑动1秒的Flink窗口化ProcessWi
我需要理解以下链接中的答案:Flink精确-一次消息处理 这是否意味着Flink Sink会像Cassandra那样对外部系统产生重复事件? 例如:
我有一个记录按顺序到达的流。我应用了一个map函数,然后在上面应用了keyBy函数。在每个具有相同键的记录流中,记录的顺序是否会保持? 在按顺序排列记录方面也存在类似的问题。但是我对这里给出的答案和下面从链接“https://ci.apache.org/projects/flink/flink-docs-release-1.2/concepts/programming-model.html”中复制
请帮帮我,我有两个问题: 我从Apache Kafka json-messages读到(然后我有步骤:反序列化到POJO、筛选器、keyBy...) 使用哪个更好:KeyedProcessFunction(带有状态、计时器、if-else逻辑块)还是Flink CEP模式库? 我可以检查KeyedProcessFunction中的输入序列(检查state,if-else blocks,out.co
我正在尝试为Kafka输入流实现一个非常简单的Apache Flink CEP。Kafka生产者生成一个简单的Double值,并通过Kafka主题将它们作为字符串发送给消费者。目前,我正在用Flink编码一个CEP消费者。到目前为止,这是我编写的代码: 如果我正在尝试执行这段代码,这是一条错误消息: 编辑:我尝试了另一个例子,每次执行我都得到相同的错误。所以我觉得我的包裹有问题?
我的用例是,我想对同一个数据流应用不同的CEP模式。CEP模式是动态的&我希望它们被添加到flink,而不必重新启动作业。虽然所有条件都可以通过实现IterativeCondition的自定义类来处理,但我的主要问题是时间条件只接受TimeWindow;无法处理。有什么方法可以根据输入元素来设置传递给.winn()的值吗? 原因是我使用:PatternStream matchStream=cep.
我正在使用Flink表API,使用Java将数据集转换为数据流....以下是我的代码: ExpressionException:JavaStreamingTranslator的根无效:Root(ArraySeq((related_value,Double),(ref_id,String)))。您尝试将基于数据集的表转换为数据流吗?我想知道我们如何使用Flink表API将DataSet转换为Data
为了测试流处理和Flink,我给自己出了一个看似简单的问题。我的数据流由粒子的和坐标以及记录位置的时间组成。我的目标是用特定粒子的速度来注释这个数据。所以小溪看起来像这样。 现在无法保证事件会按顺序到达,即可能会在之前到达,即。 为了简单起见,可以假设任何迟来的数据将在早数据的内到达。 我承认,我是流处理和闪烁的新手,所以这可能是一个愚蠢的问题,提出一个明显的答案,但我目前被难倒了,如何去实现我的
我正在尝试计算Flink中输入数据流(无窗口)的平均值 输入数据流来自套接字连接,形式为“键值”,如“x 5”
流程功能性能 这看起来像是Flink源一直在等待,直到后来的操作员从忙碌中解脱出来。这是背压处理在闪烁,有没有反正我们可以配置让流流动没有这样的间隔等待?
我对闪身是个新手。我正在尝试使用Flink1.3.2从我们的Kinesis流中读取并将输出写入一个Cassandra表。该程序能够从Kinesis流式传输数据。 提前道谢!