当前位置: 首页 > 知识库问答 >
问题:

Apache beam python管道在groupbykey()之后不继续

谷梁建中
2023-03-14
(parseout_interim | beam.Map(lambda row: (row['prefix'] + row['report_id'], row))
                                                # | beam.GroupByKey()
                                                | beam.ParDo(ParseSegmentsDoFn()).with_outputs(ParseSegmentsDoFn.OUTPUT_TAG_TRADELINE,
                                                                                              main = 'parseout'))

共有1个答案

邢洋
2023-03-14

正如您在评论中所暗示的,这一定是一个流式管道。

考虑一个流式管道正在持续接收事件。当您想在该管道中对事件进行分组时,系统需要知道在对事件进行分组时应该等待多长时间。这有道理吗?

因此,您需要为您的管道设置窗口和触发策略,否则它将永远等待,以分组流中的所有元素。

 类似资料:
  • 在此图像中,有2个并行源和2个并行接收器,由于数据源中的某些错误数据为日期2014-08-01,第一次转换失败。一旦2014-08-01转换失败,则2014-08-02转换被取消。2014-08-02转换没有坏数据。 是否有一种方法可以防止另一个转换的取消?

  • 我试图在Beam管道完成后,在Google DataFlow上运行一个函数(或管道)。 目前,我已经构建了一个hack来运行该函数,方法是使用 ... func在哪里: 但是有更好的方法吗?

  • 我有一系列执行快速检查的阶段。我想完成所有这些,即使有失败。例如: 第二阶段失败,因此默认情况下第三阶段不执行。 通常这将是的工作,但我想在阶段视图中显示它们。在下面的模型中: 构建4显示了通常发生的情况。作业失败,因此不运行

  • 所以,我有一个RDD,它有如下键值对。 在groupByKey之后,我希望得到这样的东西 然而,我发现即使在执行groupByKey()之后,也会重复相同的键。键值对的总数肯定会减少,但仍然有许多重复的键。有什么问题吗? 键的类型基本上是一个Java类,其中包含整数类型的字段。火花是否也在考虑对象字段以外的东西来识别这些对象?

  • 我正在尝试使用下面的代码从Bigquery读取一些数据,并从文件系统读取一些数据。 但是,当我运行这个管道时,我得到了以下错误 Traceback(最近一次调用):File"/etl/dataflow/etlTXLPreprocessor.py",第125行,在run()File"/etl/dataflow/etlTXLPreprocessor.py",第120行,在runp.run()中。wai

  • 最近我一直试图在詹金斯内部建立一个管道。目标是创建一个pod并执行kubernetes部署。 但是当我运行管道作业时,它会一个接一个地创建pod,它永远不会完成作业- 设置kubernetes集群-成功 安装jenkins-成功 连接jenkins到kubernetes集群-成功 这是管道脚本- 不-Pods创建成功,kubernetes部署也成功,但jenins管道从未停止。 我的jenkins