当前位置: 首页 > 面试题库 >

如何防止气流回填dag管路?

朱梓
2023-03-14
问题内容

假设您有一个气流DAG,它对回填没有意义,这意味着在运行一次之后,快速运行后续时间将完全没有意义。

例如,如果您要从仅每小时更新一次的某个源中加载数据,则快速连续进行的回填将一次又一次地导入相同的数据。

当您实例化一个新的每小时任务时,这特别令人讨厌,并且N在它开始以指定的时间间隔运行之前,它为错过的每个小时运行了一定的时间,进行了多余的工作。

我能想到的唯一解决方案是他们在文档的FAQ中特别建议的解决方案

我们建议不要将动态值用作start_date,尤其是datetime.now()因为它可能会造成混乱。

有什么方法可以禁用DAG的回填,还是应该执行上述操作?


问题答案:

升级到airflow版本1.8,并在airflow.cfg中使用catchup_by_default = False或对每个dag应用catchup =
False。

https://github.com/apache/incubator-
airflow/blob/master/UPDATING.md#catchup_by_default



 类似资料:
  • 问题内容: 在IE上,我可以使用(非常不标准,但可以正常工作)的jQuery做到这一点 但是,是否可以以在Firefox上运行的方式或以跨浏览器的方式获得奖励呢? 作为记录: 什么也没做。 解决了问题,但使退格键在页面上不可用,这甚至比原始行为还差。 编辑:我这样做的原因是我不是在创建一个简单的网页而是一个大型应用程序。仅仅因为您在错误的位置按了退格键,就失去了10分钟的工作,这真是令人讨厌。通过

  • 我的狗看起来像这样 我的DAG正在执行一个jar文件。jar文件包含运行数据流作业的代码,该作业将数据从GCS写入BQ。jar本身执行成功。 当我尝试执行airflow作业时,我看到以下错误 我做了更多的挖掘,我可以看到气流 正如您可以看到jobs之后的最后一个参数是asia east,因此我觉得airflow job正在尝试使用我在默认参数中提供的区域来搜索数据流job的状态。不确定这是否是正在

  • 问题内容: 调用的方法: 1. Struts Action 2.服务类方法(由@Transactional注释) 3. Xfire Web服务调用 包括struts(DelegatingActionProxy)和事务在内的所有内容都使用Spring进行配置。 持久性是通过JPA / Hibernate完成的。 有时,Web服务将引发未经检查的异常。我捕获了此异常并抛出了一个已检查的异常。我不希望事

  • 问题内容: 目前,我正在使用内置于python的应用程序。当我在个人计算机上运行它时,它不会出现问题。 但是,当我将其移至生产服务器时。它不断向我显示以下错误: 我进行了一些研究,得出的原因是,当服务器仍在忙于发送数据时,最终用户浏览器会停止连接。 我想知道为什么会发生这种情况,以及根本原因是什么导致它无法在生产服务器上正常运行,而我的计算机却可以正常运行。任何建议表示赞赏 问题答案: 您的服务器

  • 我有气流作业,它们在EMR集群上运行良好。我需要的是,假设我有4个气流作业,需要一个EMR集群,比如说20分钟来完成任务。为什么我们不能在DAG运行时创建一个EMR集群,一旦作业完成,它将终止创建的EMR集群。