当前位置: 首页 > 知识库问答 >
问题:

Apache Beam/Dataflow中重复转换的优化

杜诚
2023-03-14

我想知道Apache Beam.Google DataFlow是否足够聪明,能够识别数据流图中的重复转换,并只运行一次。例如,如果我有2个分支:

    null

共有1个答案

谷泳
2023-03-14

正如您可能已经推断的那样,此行为依赖于运行者。每个运行器实现自己的优化逻辑。

  • 数据流运行程序当前不支持此优化。
 类似资料:
  • 我有一个批次处理作业在数据流运行在gcp下版本apache-梁[gcp]==2.19.0的数据流运行。我为作业创建了一个自定义模板。作业正在按预期运行,但我还想添加最大作业持续时间。我在wait_until_finish()方法中找到了持续时间(毫秒)参数,它应该是可用的。问题是:如何让模板化批处理作业在运行时间超过持续时间时自动停止?我不需要保存任何数据,我只希望工作运行时间过长时停止。我已经实

  • apachebeam中的核心转换(Map、Filter、flatte)是否使用并行处理来处理数据元素,如果是,具体什么时候应该使用ParDo转换?

  • 我有一个数据流工作,将单个文件分割成x个记录(表)。这些流在bigQuery没有问题。 不过,我发现没有办法在结果出来后执行管道中的另一个阶段。 举个例子 根据上述内容,我希望运行以下内容: 是有无论如何运行管道的另一个部分后,up到bigQuery或这是不可能的?提前感谢。

  • 我有一个这样的数据框, 因为传感器的数量是可变的,所以我决定把它们写成行,比如, 我想知道是否有任何方便的方法将df1转换为df2? 附录:为方便起见,df1代码,

  • 我试图将类型转换为布尔值。所以我就这么做了: 但是不是布尔值,它只包含值。然而,当我尝试这个: 返回一个布尔值,该值为false。 我是否遗漏了一些关于“as”演员的内容? 哪一个是正确的转换为布尔值?

  • 除了字符串解析之外,将字符串格式的日期“YYYY-MM”转换为Java中的日期对象的最佳方法是什么。 我试过的在下面。 然后提取month和year来创建Date对象。