当前位置: 首页 > 知识库问答 >
问题:

同时运行约10个批处理作业时,Flink纱线会话模式变得不稳定

乐正晟
2023-03-14

我正在尝试设置一个flink-yarn会话来运行大约100个批处理作业。连接到大约40个任务管理器和大约10个正在运行的作业(每个任务管理器有2个插槽和1GB内存)后,会话看起来变得不稳定。有足够的资源可用。flinkUI突然变得不可用,我猜作业管理器可能已经死了。最终,纱线应用程序也被杀死了。

作业管理器正在4核16GB节点上运行,可用容量为12 gb

是否有任何指南来计算作业管理器资源与它可以处理的任务管理器数量?

共有1个答案

贡光明
2023-03-14

我解决了这个问题。闪烁会话中断的原因是集群中工作机器的带宽较低。运行任务管理器容器的工作机器应该至少有750Mbps或更高。由于每个任务管理器有2个插槽和1GB的内存,中等带宽~450Mbps不会减少。如果作业是IO密集型的,参与者(作业管理器和工人或工人对工人)之间的通信可能会超时(默认请求超时为100ms)。

我决定不增加ask超时,这样作业就不会因为这个瓶颈而花费太长时间。

 类似资料:
  • 当我们在一个纱线会话中运行多个flink作业时。我们发现所有作业的日志都写入同一个文件“taskmanager.log”,我们很难检查特定作业的日志。有没有办法把它们分开? 除此之外,如果我们的flink作业长时间运行,如何根据日期分离日志文件?

  • 我配置了一个spring批处理作业,它在spring WebService中运行。这项工作有几个步骤。我已经在不同的tomcats中部署了这个webservice的两个实例(但两个实例都使用相同的mysql数据库)。 我希望用不同的参数在两个tomcats中同时运行spring批处理作业(每个tomcats中一个)。我没有使用分区,每个作业的参数是完全不同的。 我开始工作在一个汤姆猫和一切看起来很

  • 我正在使用spark submit执行以下命令: spark submit script\u测试。py—主纱线—部署模式群集spark submit script\u测试。py—主纱线簇—部署模式簇 这工作做得很好。我可以在Spark History Server UI下看到它。但是,我无法在RessourceManager UI(纱线)下看到它。 我感觉我的作业没有发送到集群,但它只在一个节点上

  • 我有一份刚起步的工作。我希望在应用程序的特定点以编程方式运行此作业,而不是在启动应用程序时。 当在启动时运行时,我没有问题,但是当我尝试以编程方式运行它时,我得到了一个“NoSuchJobException”(

  • 我有点困惑,因为当通过HTTP请求启动Spring Batch作业的执行时,如果我在作业执行时收到另一个HTTP请求来启动相同的作业,但参数不同,则正在执行的作业停止未完成并开始处理新作业。 我开发了一个API REST来加载和处理Excel文件的内容。web服务公开了两个endpoint,一个用于加载、验证和存储数据库中Excel文件的内容,另一个用于开始处理存储在数据库中的记录。 > POST

  • 我们正在hadoop 2.6集群上运行Flink 1.5.0纱线会话/料仓/纱线会话。但是,这不会启动任何TaskManager。日志显示Flink JobManager以领导者id 000000开始。。。在JobManager web界面中也没有任务管理器。当我们向这个jobManager提交flink作业时,一些TaskManManager会在执行作业的web界面上生成。这是Flink1.5.