Apache beam python管道在groupbykey（）之后不继续

谷梁建中

2023-03-14

(parseout_interim | beam.Map(lambda row: (row['prefix'] + row['report_id'], row))
                                                # | beam.GroupByKey()
                                                | beam.ParDo(ParseSegmentsDoFn()).with_outputs(ParseSegmentsDoFn.OUTPUT_TAG_TRADELINE,
                                                                                              main = 'parseout'))

共有1个答案

邢洋

2023-03-14

正如您在评论中所暗示的，这一定是一个流式管道。

考虑一个流式管道正在持续接收事件。当您想在该管道中对事件进行分组时，系统需要知道在对事件进行分组时应该等待多长时间。这有道理吗？

因此，您需要为您的管道设置窗口和触发策略，否则它将永远等待，以分组流中的所有元素。

类似资料：

在其他管道转换继续运行时停止执行管道转换

在此图像中，有2个并行源和2个并行接收器，由于数据源中的某些错误数据为日期2014-08-01，第一次转换失败。一旦2014-08-01转换失败，则2014-08-02转换被取消。2014-08-02转换没有坏数据。是否有一种方法可以防止另一个转换的取消？
在Google DataFlow上完成管道后运行函数/管道

我试图在Beam管道完成后，在Google DataFlow上运行一个函数（或管道）。目前，我已经构建了一个hack来运行该函数，方法是使用 ... func在哪里：但是有更好的方法吗？
继续Jenkins管道通过失败阶段

我有一系列执行快速检查的阶段。我想完成所有这些，即使有失败。例如：第二阶段失败，因此默认情况下第三阶段不执行。通常这将是的工作，但我想在阶段视图中显示它们。在下面的模型中：构建4显示了通常发生的情况。作业失败，因此不运行
groupByKey在spark中工作不正常

所以，我有一个RDD，它有如下键值对。在groupByKey之后，我希望得到这样的东西然而，我发现即使在执行groupByKey（）之后，也会重复相同的键。键值对的总数肯定会减少，但仍然有许多重复的键。有什么问题吗？键的类型基本上是一个Java类，其中包含整数类型的字段。火花是否也在考虑对象字段以外的东西来识别这些对象？
如何在同一管道中使用ApacheBeamPython作业从BigQuery和文件系统读取数据？

我正在尝试使用下面的代码从Bigquery读取一些数据，并从文件系统读取一些数据。但是，当我运行这个管道时，我得到了以下错误 Traceback（最近一次调用）：File"/etl/dataflow/etlTXLPreprocessor.py"，第125行，在run（）File"/etl/dataflow/etlTXLPreprocessor.py"，第120行，在runp.run（）中。wai
Jenkins管道作业继续在kubernetes集群内创建pod

最近我一直试图在詹金斯内部建立一个管道。目标是创建一个pod并执行kubernetes部署。但是当我运行管道作业时，它会一个接一个地创建pod，它永远不会完成作业- 设置kubernetes集群-成功安装jenkins-成功连接jenkins到kubernetes集群-成功这是管道脚本- 不-Pods创建成功，kubernetes部署也成功，但jenins管道从未停止。我的jenkins

Apache beam python管道在groupbykey（）之后不继续

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档