当前位置: 首页 > 知识库问答 >
问题:

Apache Flink中的流预测

丌官利
2023-03-14

是否可以在Apache Flink中使用已经成批训练的模型对dataStream进行预测?

支持向量机的预测功能需要一个数据集作为输入,而不需要一个数据集。

不幸的是,我不知道如何使用FlatpMap/Map函数使其工作。

我是这样训练SVM模型的:

val svm2=SVM()
svm2.setseed(1)
svm2.fit(trainLV)
val testVD=testlv.map(lv=>(lv.vector,lv.label))
val evalSet=svm2.evaluate(testVD)

然后在流环境中有一个传入的datastream:
datastream[(Int,Int,Int)]
,它应该使用svm模型进行二进制分类。

谢谢!

共有1个答案

仇和蔼
2023-03-14

Flink的ML库目前只支持批处理。如果希望使用DataStreamAPI进行预测,则需要实现自己的FlatMap/Map函数,该函数接受模型并将其应用于传入的事件。

 类似资料:
  • 我正在尝试为ApacheFlink导入ScalaAPI流扩展,如中所述https://ci.apache.org/projects/flink/flink-docs-master/apis/scala_api_extensions.html 但是,我的ScalaIDE抱怨以下消息:对象扩展不是包的成员org.apache.flink.streaming.api.scala 我使用的是scala 2

  • 我有以下代码来计算socketTextStream中的单词。累积字数和时间窗字数都是必需的。该程序存在累积计数始终与窗口计数相同的问题。为什么会出现这个问题?根据加窗计数计算累积计数的正确方法是什么?

  • 安装(下载 这是Flink的默认配置。 关于这里发生了什么事,有什么建议吗?

  • 我想在Apache Flink中做流媒体工作来做Kafka- 这应该是流式处理。

  • 我有2个使用kafka主题创建的流,我正在使用DataStream API加入它们。我希望将连接(应用)的结果发布到另一个kafka主题。我在外部主题中看不到连接的结果。 我确认我向两个源主题发布了正确的数据。不确定哪里出了问题。下面是代码片段, 创建的流如下所示。 流连接使用等于的连接执行,如下所示。 如下所述, 有什么线索吗,哪里出了问题?我可以在拓扑中看到可用的消息,谢谢

  • 我想在Apache Flink中实现以下场景: 给定一个具有4个分区的Kafka主题,我想使用不同的逻辑在Flink中独立处理分区内数据,具体取决于事件的类型。 特别是,假设输入Kafka主题包含前面图像中描述的事件。每个事件具有不同的结构:分区1具有字段“a”作为关键字,分区2具有字段“b”作为关键字,等等。在Flink中,我希望根据事件应用不同的业务逻辑,所以我认为我应该以某种方式分割流。为了