当前位置: 首页 > 知识库问答 >
问题:

如何估算Hortonworks Hadoop集群上spark executor的数量?

太叔涵亮
2023-03-14
    null

当我运行一个火花程序时,执行器只在4个节点上运行,而不是在整个数据节点上运行。

如何估计这样的Hadoop集群上spark执行者的数量?

共有1个答案

锺离宸
2023-03-14

您请求的执行者数量默认为4。如果希望请求更多,则必须在命令行中使用--num-executors=x参数调用,或者在配置中设置spark.executors.instances。更多详细信息请参见:https://spark.apache.org/docs/latest/running-on-yarn.html

因为Spark是在Hortonworks Hadoop上用YARN运行的,所以每个Spark客户机都应该部署YARN/Node manager,YARN客户机。否则,将不会调度spark客户端。

实际的执行器与节点管理器的最小数目和NUM执行器有关。

 类似资料:
  • 我有一个在kubernetes集群(在AWS EKS上)上运行的mongo db副本集,比如集群-1。这在具有cidr的VPC-1中运行192.174.0.0/16. 我在一个单独的VPC中有另一个集群,比如VPC-2,在那里我将在mongo集群之上运行一些应用程序。该VPC cidr范围为192.176.0.0/16。所有VPC对等和安全组入口/出口规则都正常工作,我能够跨两个VPC ping集

  • 最近我正在开发一些针对storm拓扑的计时工具,但是对于storm集群中的数据共享,我还是有一些疑问: > 如果一个组件(spout/bolt)为每个工作者配置了多个执行器,假设工作者号为1,组件的parallelism_hint为3,任务号使用默认设置(即1),是否意味着该组件在工作者中有3个实例?如果不是,是否应该在同步块中使用组件的字段? 如果在组件中(或方法内)创建了一个名为“athrea

  • 问题内容: 我已使用连接到集群,并使用将程序发送到集群 我想将结果保存在文本文件中,并尝试使用以下几行: 但是,它们都不起作用。程序完成,我在中找不到文本文件。你知道我该怎么做吗? 另外,有没有一种方法可以直接写入本地计算机? 编辑:我发现该目录不存在,所以现在我将结果另存为: 但这会创建一个名为的目录,并且我里面有很多文件,里面有部分结果。但是我想要一个包含最终结果的文件。有什么想法我该怎么做?

  • 拜托,我需要你的帮助。 自上周以来,我一直在努力尝试在Windows服务器上配置兔子MQ集群。我重新安装了 RabbitMQ 3.7.8 和 ErlangOTP 21-1 超过 15 次,试图找出问题并修复它,但不幸的是,我所有的尝试都失败了。 我的环境: 三个虚拟机与操作系统: Windows 服务器 2012 环境变量设置: 安装步骤:(针对每台服务器) 完成以上服务器的安装后,我开始配置集群

  • 我对Flink和库伯内特斯是新手。我计划创建一个flink流作业,将数据从文件系统流到Kafka。 使用工作正常的flink job jar(本地测试)。现在我正试图在kubernetes主持这项工作,并希望在AWS中使用EKS。 我已经阅读了有关如何设置flink群集的官方flink文档。https://ci.apache.org/projects/flink/flink-docs-releas

  • 我尝试了这个设置: 服务器1: 服务器2: 是设置不正确,还是证书有问题? 组织中以前的Artemis设置有相互的SSL,但是对于我的用例来说,双向身份验证没有任何好处。由于我的设置不起作用,我再次添加了它,但我认为它只是强制客户端通过用户/密码进行身份验证。