在尝试运行管道时,我得到以下错误消息:
作业图太大。请使用较小的作业图重试,或将作业拆分为两个或多个较小的作业。
根据文件,限制是10 MB。然而;我想知道图实际上有多大,以使调试更容易。
有什么办法可以看到图形的大小吗?
正如注释中提到的,使用--dataflow_job_file
选项。注意,不需要指定gcs路径,您可以在本地写出它。还可以传递--dry_run
选项,以避免实际提交作业。
我一直试图在Dataflow上运行一个apache beam作业,但我从GCP得到了一个错误,其中包含以下消息: 我在过去运行过带有较大图形的作业,没有任何问题。该作业在本地使用Directrunner也运行良好。图中大约有12个节点,包括一个read from Bigquery步骤、一个步骤和一个步骤。 有没有一种方法可以增加数据流愿意接受的图形大小?
我计划使用Spark来处理数据,其中RDD或数据帧中的每个单独元素/行有时可能很大(高达几GB)。 数据可能会存储在HDFS中的Avro文件中。 显然,每个执行程序都必须有足够的RAM来在内存中保存这些“胖行”中的一个,并留出一些。 但是,Spark/HDFS或常见序列化格式(Avro、拼花、序列文件…)的行大小是否有其他限制?例如,这些格式中的单个条目/行能否比HDFS块大小大得多? 我知道HB
我已经阅读了spring批处理文档几次,并搜索了一种基于作业参数跳过作业步骤的方法。 我希望能够跳过步骤4,如果希望通过指定在工作Paramaters。 我能找到的唯一相关的问题是如何根据应用程序参数--spring boot java config选择运行哪个spring批处理作业 这似乎表明应该创建两个不同的作业上下文,并在批处理步骤定义之外做出决定。 但是,必须创建4个单独的上下文文件,以便
我得和Spring批处理问题。都与通过命令行传入的JobParameters有关。 第一期: 为了从JobParameters获取路径,我使用BeforeStep注释加载JobParameters并将它们复制到局部变量上。不幸的是,这不起作用。变量将为并且执行失败,因为文件无法打开。 如何访问读取器中的作业参数?我想将文件路径作为命令行参数传入,然后读取这个文件。
我正试图在Dataflow上运行作业,每当我试图将其提交到使用Dataflow Runner运行时,我都会从服务收到以下错误: 我如何更改我的工作,使其更小,或增加工作大小限制?
我有一个作业必须使用不同的作业参数运行多次。我想设置一个JdbcCursorItemReader来执行对作业的查询,itemReader配置如下: 作业配置如下: 但我得到了这个错误: 我发现了一个非常相似的问题,这个问题和这个问题的区别是,我没有reader类来注释,我只有xml条目,因为我希望避免创建自己的ItemReader。(我可以尝试重写jdbcCursorItemReader类,以便能