我使用Apache Flink来预测来自Twitter的流。 代码是在Scala中实现的 我的问题是,我从DataSet API训练的SVM模型需要一个DataSet作为predict()方法的输入。 我在这里已经看到一个问题,其中一个用户说,您需要编写一个自己的MapFunction,在作业开始时读取模型(参考:Flink中使用scala的实时流预测) 但是我不能写/理解这段代码。 即使我在St
考虑使用以下管道的Apache Flink流媒体应用程序: 其中每个函数都是非状态运算符(例如
Flink版本:1.2.0 Scala版本:2.11.8 我想使用一个数据流来预测使用scala在flink中的模型。我在flink中有一个使用scala的DataStream[String],其中包含来自kafka源的json格式的数据。我想用这个数据流来预测已经训练过的Flink ml模型。问题是所有flink ml示例都使用DataSet api进行预测。我对flink和scala比较陌生,
我们有一个数据流,其中每个元素都属于这种类型: 我们希望聚合此流并每周输出一次的总和。 当前解决方案: flink管道的示例如下所示: 输入 如果窗口在记录和之间结束,我们的输出将是: Id和仍将在flink管道中,并将在下周输出。 因此,下周我们的总产量将是: 新规定: 我们现在还想知道每个记录在哪一周被处理。换句话说,我们的新产出应该是: 但我们还需要这样的额外输出: 这个怎么处理? Flin
我们计划使用Apache Flink对多种类型的对象执行实时聚合。我们需要支持几种类型的聚合,如和、最大、最小、平均等。-到目前为止没有什么特别的 我们的需求是将数据输出到kafka,其中一条消息包含多个对象属性的多个聚合值。 例如,消息应包括属性A的总和、最大值和平均值,以及过去10分钟内属性B的总和和最小值 我的问题是,用Flink实现这一要求的最佳方式是什么? 我们考虑使用一个自定义窗口函数
我正在使用ApacheFlink的数据集API。我想实现一个将多个结果写入不同文件的作业。 我该怎么做?
我们正在构建一个流处理管道来处理/摄取Kafka消息。我们正在使用Flink v1.12.2。在定义源水印策略时,在官方留档中,我遇到了两种开箱即用的水印策略;forBoundedOutOfOrness和forMonotonousTimestamps。我确实浏览了javadoc,但并不完全理解何时以及为什么你应该使用一种策略而不是另一种策略。时间戳基于事件时间。谢谢。
早些时候,我问了Flink一个简单的hello world示例。这给了我一些很好的例子! 然而,我想问一个更“流”的例子,我们每秒生成一个输入值。这在理想情况下是随机的,但即使每次都是相同的值也可以。 目标是获得一个无需/最少外部接触就能“移动”的流。 因此,我的问题是: 我发现如何显示这与外部生成数据和写入Kafka,或听一个公共源,但是我试图解决它与最小的依赖性(像在Nifi与Generate
我想使用NATs流式服务器来流式传输数据,并使用Flink来处理数据。 如何使用apache flink使用NATS流媒体服务器处理实时流媒体数据?
我做了一个poc,其中我使用spark流从Kafka读取数据。但我们的组织要么使用ApacheFlink,要么使用Kafka消费者从ApacheKafka读取数据,作为标准流程。所以我需要用Kafka消费者或ApacheFlink替换Kafka流媒体。在我的应用程序用例中,我需要从kafka读取数据,过滤json数据并将字段放入cassandra中,因此建议使用kafka consumer而不是f
我正在使用ApacheFlink-1.1.3进行实时流数据分析。我的系统由用于消息队列的Kafka集群、从Kafka分区读取消息并对其进行分析的Flink集群组成,最后我希望将生成的数据转储到Ignite缓存中。对于系统,我使用IgniteSink类将数据放入ignite缓存。版本如下: Flink1.1.3, Kafka2.10,点燃2.0.0 当我试图在flink cluster上运行作业时,
我一直在试图找到一个连接器,将数据从Redis读取到Flink。Flink的文档中包含了要写入Redis的连接器的描述。在我的Flink工作中,我需要从Redis读取数据。在使用ApacheFlink进行数据流传输时,Fabian提到可以从Redis读取数据。可用于此目的的接头是什么?
我想用Scala计算Flink中流数据的分位数。我的问题类似于但比这一个更简单,flink计算中位数。我认为这可以通过定义一个自定义聚合函数来实现,但我正在寻找一些Scala示例。我已经看了本章中的例子https://github.com/dataArtisans/flink-training-exercises但是没有完全找到我要找的东西。我计算了总和,平均值,我想计算第95个百分位数。 我希望
我在scala中有一个方法 当文件已经存在时,它会引发异常,并建议指定
我使用的是Flink 0.10.0数据流。这是我的要求。 我的源系统是广播消息的自定义系统。在我的自定义SourceFunction实现中,我实现了回调来侦听消息。 每个回调都会得到不同类型的消息。 我想解码/转换在回调中收到的对象发送到我的SinkFunction。我相信我可以用FlatMapFunction或类似的软件来完成。 因为我有各种回调,所以我听每个回调的解码逻辑是不同的。我想不能有一