当前位置: 首页 > 知识库问答 >
问题:

Spark Streaming-离线模型是否可以用于数据流

梁研
2023-03-14

在这个Link-Link中,提到了一个已经离线构建的机器学习模型,可以对着流数据进行测试。

“你还可以轻松地使用MLlib提供的机器学习算法。首先,有流式机器学习算法(例如流式线性回归、流式KMeans等),它们可以同时从流式数据中学习,也可以在流式数据上应用模型。除此之外,对于更大类的机器学习算法,你可以离线学习一个学习模型(即使用历史数据),然后在流式数据上在线应用模型。更多细节请参见MLlib指南。”

>

  • 这是否意味着可以使用Spark内置的随机森林模型这样的复杂学习模型来针对Spark streaming程序中的流数据进行测试?在Spark Streaming程序中引用已经构建好的“模型”并对其调用“predictonValues()”是不是那么简单?

    在这种情况下,现有的spark流式机器学习算法(和)这种方法之间的主要区别是否在于流式算法将随着时间的推移而发展,而离线(对抗)在线流式方法仍将使用其先前所学的洞察力,而没有任何在线学习的可能性?

    我说对了吗?请让我知道我对上述两点的理解是否正确。

  • 共有1个答案

    温举
    2023-03-14

    这是否意味着可以使用Spark中内置的随机森林模型这样的复杂学习模型来针对Spark流式程序中的流式数据进行测试?

    是的,您可以在批处理模式下训练一个像随机森林这样的模型,并存储该模型以供以后进行预测。如果您想要将其与流式应用程序集成,在流式应用程序中,值会不断地来进行预测,那么您只需要将模型(它实际上读取特征向量及其权重)加载到内存中,并进行预测直到结束。

    在Spark Streaming程序中引用已经构建好的“模型”并对其调用“predictonValues()”是不是那么简单?

    在这种情况下,现有的spark流式机器学习算法(和)这种方法之间的主要区别是否在于流式算法将随着时间的推移而发展,而离线(对抗)在线流式方法仍将使用其先前所学的洞察力,而没有任何在线学习的可能性?

    训练一个模型无非是更新特征的权重向量。您仍然必须选择alpha(学习率)和lambda(正则化参数)。因此,当您将使用StreamingLinearRegression(或其他流的等价物)时,您将有两个dStreams一个用于训练,另一个用于预测,这是显而易见的。

     类似资料:
    • 问题内容: 我在家里一直在使用Django和Django ORM,我不得不说,就易用性而言,它是目前最好的之一。 但是,我想知道是否可以在“反向”中使用它。 基本上,我想做的是从现有的数据库模式(从不使用django且相当老的项目中)生成Django模型。 这可能吗? 更新:有问题的数据库是Oracle 问题答案: 是的,使用命令: http://docs.djangoproject.com/en

    • 我有一个JS项目,它使用aws服务作为后端(Cognito、AppSync、S3等)。 我使用AWS Amplify访问这些服务,但不使用Amplify CLI;所有aws服务都是手动配置的。 关于AppSync,我有一个小脚本,它读取模式(从APPESNC控制台手动下载),然后生成TypeScript操作和操作类型文件(使用放大器-图形ql-文档-生成器和放大器-图形ql-类型-生成器)。 有没

    • 问题内容: 我想知道是否可以在Django模型中存储数组? 我问这个问题是因为我需要在一个字段中存储一个数组(例如[1,2,3]),然后能够搜索特定的数组并与之匹配,或者通过它的可能组合来进行匹配。 我当时正在考虑将该数组存储为s中的字符串,然后在需要搜索内容时,将值(通过过滤其他模型获得)与’[‘,’]’和’,’连接在一起,然后使用带有生成字符串。问题在于,我将必须生成每种可能的组合,然后逐个过

    • 问题内容: 我有一个Python程序,该程序通过 PySerial 模块从串行端口读取数据。我需要牢记的两个条件是:我不知道会有多少数据到达,并且我也不知道何时需要数据。 基于此,我提出了以下代码段: 因此,此代码将永远循环以从串行端口获取数据。我们最多可以存储500个字符,然后通过设置一个标志来警告主循环。如果没有数据,我们将回到睡眠状态并等待。 该代码正在运行,但是我不喜欢5s超时。我需要它是

    • 当使用服务器端模板和客户端angularjs时,我无法让angularjs识别我在服务器上模板化的值。 例如(或在jsfiddle上): Angularjs将始终使用(为空)。我想要的是将在应用程序引导中执行“模板化”,然后从此处正常继续。 如何从服务器中模板化一个值,然后让angularjs模型在客户端绑定该值?

    • H全部, 如果有人有任何经验的kafka-spark流对处理各种数据,请给我一个简短的细节,如果这是一个可行的解决方案,并比有两个不同的管道更好。 提前道谢!