当前位置: 首页 > 知识库问答 >
问题:

参见Google Dataflow中的作业图大小

萧自珍
2023-03-14

在尝试运行管道时,我得到以下错误消息:

作业图太大。请使用较小的作业图重试,或将作业拆分为两个或多个较小的作业。

根据文件,限制是10 MB。然而;我想知道图实际上有多大,以使调试更容易。

有什么办法可以看到图形的大小吗?

共有1个答案

汲涵育
2023-03-14

正如注释中提到的,使用--dataflow_job_file选项。注意,不需要指定gcs路径,您可以在本地写出它。还可以传递--dry_run选项,以避免实际提交作业。

 类似资料:
  • 我一直试图在Dataflow上运行一个apache beam作业,但我从GCP得到了一个错误,其中包含以下消息: 我在过去运行过带有较大图形的作业,没有任何问题。该作业在本地使用Directrunner也运行良好。图中大约有12个节点,包括一个read from Bigquery步骤、一个步骤和一个步骤。 有没有一种方法可以增加数据流愿意接受的图形大小?

  • 我计划使用Spark来处理数据,其中RDD或数据帧中的每个单独元素/行有时可能很大(高达几GB)。 数据可能会存储在HDFS中的Avro文件中。 显然,每个执行程序都必须有足够的RAM来在内存中保存这些“胖行”中的一个,并留出一些。 但是,Spark/HDFS或常见序列化格式(Avro、拼花、序列文件…)的行大小是否有其他限制?例如,这些格式中的单个条目/行能否比HDFS块大小大得多? 我知道HB

  • 我已经阅读了spring批处理文档几次,并搜索了一种基于作业参数跳过作业步骤的方法。 我希望能够跳过步骤4,如果希望通过指定在工作Paramaters。 我能找到的唯一相关的问题是如何根据应用程序参数--spring boot java config选择运行哪个spring批处理作业 这似乎表明应该创建两个不同的作业上下文,并在批处理步骤定义之外做出决定。 但是,必须创建4个单独的上下文文件,以便

  • 我得和Spring批处理问题。都与通过命令行传入的JobParameters有关。 第一期: 为了从JobParameters获取路径,我使用BeforeStep注释加载JobParameters并将它们复制到局部变量上。不幸的是,这不起作用。变量将为并且执行失败,因为文件无法打开。 如何访问读取器中的作业参数?我想将文件路径作为命令行参数传入,然后读取这个文件。

  • 我正试图在Dataflow上运行作业,每当我试图将其提交到使用Dataflow Runner运行时,我都会从服务收到以下错误: 我如何更改我的工作,使其更小,或增加工作大小限制?

  • 本书的最后一部分是你进阶更高级项目,并尝试确定你的个人流程的地方。这些项目是困难的组合,但他们应该帮助你正式化你的流程,并找出适合你的东西。最重要的是,你应该着手分析你的工作方式和最适合你的东西。也许你没有执行我在本书建议的,关于个人发展的任何事情,但我希望你继续阅读这本书,并找到分析自己的方法。作为程序员,这样做会给你一种有效的方式,来成长和改进。 我们应该检查你至今为止所学到的知识,因为我会要