问题：

火花流口水-性能

郜驰

2023-03-14

我在Scala/Spark中有一个批处理作业，它根据一些输入动态创建Drools规则，然后评估规则。我还有一个与要插入到规则引擎的事实相对应的输入。

到目前为止，我正在一个接一个地插入事实，然后触发关于这个事实的所有规则。我正在使用rdd.aggregate执行此操作。

seqOp运算符的定义如下：

scala prettyprint-override">/**
 * @param broadcastRules the broadcasted KieBase object containing all rules
 * @param aggregator used to accumulate values when rule matches
 * @param item the fact to run Drools with
 * @tparam T the type of the given item
 * @return the updated aggregator
 */
def seqOp[T: ClassTag](broadcastRules: Broadcast[KieBase])(
  aggregator: MyAggregator,
  item: T) : MyAggregator = {
  val session = broadcastRules.value.newStatelessKieSession
  session.setGlobal("aggregator", aggregator)
  session.execute(CommandFactory.newInsert(item))
  aggregator
}

以下是生成的规则的示例：

dialect "mvel"
global batch.model.MyAggregator aggregator
rule "1"
 when condition
 then do something on the aggregator
end

对于同一RDD，该批次花了20分钟来评估3K规则，但花了10小时来评估10K规则！

我想知道根据事实插入事实是否是最好的方法。一次插入RDD的所有项目比触发所有规则更好吗？对我来说，这似乎不是最佳选择，因为所有事实都将同时存在于工作记忆中。

您认为上面的代码有任何问题吗？

共有1个答案

越勇

2023-03-14

最后我发现了这个问题，它更多地与规则匹配时在聚合器上执行的操作有关，而不是与规则的评估有关。

类似资料：

火花流集成水槽

我遵循火花流水槽集成的指导。但我最终无法获得任何事件。（https://spark.apache.org/docs/latest/streaming-flume-integration.html）谁能帮我分析一下？在烟雾中，我创建了“avro_flume.conf”的文件，如下所示：在文件中，123.57.54.113是本地主机的ip。最后，根本没有任何事件。怎么了？谢谢！
火花流和高可用性

我正在构建作用于多个流的Apache Spark应用程序。我确实阅读了文档中的性能调优部分:http://spark.apache.org/docs/latest/streaming-programming-guide.html#performan-tuning 我没有得到的是： 1）流媒体接收器是位于多个工作节点上，还是位于驱动程序机器上？ 2）如果接收数据的节点之一失败（断电/重新启动）会发
聚合火花流

我试图从聚合原理的角度来理解火花流。Spark DF 基于迷你批次，计算在特定时间窗口内出现的迷你批次上完成。假设我们有数据作为- 然后首先对Window_period_1进行计算，然后对Window_period_2进行计算。如果我需要将新的传入数据与历史数据一起使用，比如说Window_priod_new与Window_pperid_1和Window_perid_2的数据之间的分组函数，我该
火花流微配料

如果spark streaming在10秒的批处理间隔中获得50行消息，并且在40.5行消息之后，这10秒就结束了，剩下的时间落入另一个10秒的间隔中，前40.5行的文本是一个RDD被首先处理，在我的用例中，前40行是有意义的，但是下一个。5行没有意义，第二个RDD首先也是这样。5行，我的问题是否有效？。请提供建议如何处理这个问题？。谢谢比尔。
火花窗口聚合vs. Group By/Join性能

与group by/join相比，我对在窗口上运行聚合函数的性能特征感兴趣。在本例中，我对具有自定义帧边界或顺序的窗口函数不感兴趣，而只是作为运行聚合函数的一种方式。请注意，我只对大小适中的数据量的批处理（非流式）性能感兴趣，因此我禁用了以下广播连接。例如，假设我们从以下DataFrame开始：假设我们想要计算每个名称出现的次数，然后为具有匹配名称的行提供该计数。根据执行计划，窗口化看起来
火花流后立即使用火花RDD过滤器

我正在使用火花流，我从Kafka读取流。阅读此流后，我将其添加到hazelcast地图中。问题是，我需要在读取Kafka的流之后立即从地图中过滤值。我正在使用下面的代码来并行化地图值。但在这个逻辑中，我在另一个逻辑中使用JavaRDD，即JavaInputDStream.foreachRDD，这会导致序列化问题。第一个问题是，如何通过事件驱动来运行spark作业？另一方面，我只是想得到一

火花流口水-性能

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档