问题：

Spark with GPU：如何强制每个执行器执行1个任务

朱梓

2023-03-14

我有Spark 2.1.0运行在一个有N个从节点的集群上。每个节点有16个内核（8个内核/cpu和2个cpu）和1个GPU。我想使用map进程启动一个GPU内核。由于每个节点只有1个GPU，我需要确保两个执行器不在同一个节点上（同时）尝试使用GPU，并且两个任务不会同时提交给同一个执行器。

如何强制 Spark 每个节点有一个执行程序？

我尝试了以下方法:

-设置:< code > $ SPARK _ HOME/conf/SPARK-defaults . conf 中的< code > SPARK . executor . cores 16

-设置：SPARK_WORKER_CORES=16和SPARK_WORKER_INSTANCES=1在$SPARK_HOME/conf/spark-env.sh

而且，

--设置 conf = SparkConf（.设置（“spark.executor.cores'， 16）.set（”spark.executor.instancess“， 6） 直接在我的 spark 脚本中（当我想要 N=6 用于调试目的时）。

这些选项根据需要在不同的节点上创建6个执行器，但是似乎每个任务都被分配给了同一个执行器。

以下是我最近输出的一些片段（这让我相信它应该按照我想要的方式工作）。

17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/0 on worker-20170217110853-10.128.14.208-35771 (10.128.14.208:35771) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/0 on hostPort 10.128.14.208:35771 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/1 on worker-20170217110853-10.128.9.95-59294 (10.128.9.95:59294) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/1 on hostPort 10.128.9.95:59294 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/2 on worker-20170217110853-10.128.3.71-47507 (10.128.3.71:47507) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/2 on hostPort 10.128.3.71:47507 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/3 on worker-20170217110853-10.128.9.96-50800 (10.128.9.96:50800) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/3 on hostPort 10.128.9.96:50800 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/4 on worker-20170217110853-10.128.3.73-60194 (10.128.3.73:60194) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/4 on hostPort 10.128.3.73:60194 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/5 on worker-20170217110853-10.128.3.74-42793 (10.128.3.74:42793) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/5 on hostPort 10.128.3.74:42793 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/1 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/3 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/4 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/2 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/0 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/5 is now RUNNING
17/02/17 11:09:11 INFO StandaloneSchedulerBackend: SchedulerBackend is ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.0 

My RDD has 6 partitions.

重要的是启动了6个Executors，每个Executors的IP地址不同，每个Executors得到了16个内核(和我预想的一模一样)。短语< code >我的RDD有6个分区。是在对我的RDD进行重新分区(以确保每个执行器有一个分区)后，我的代码中的打印语句。

然后，这种情况发生了...6个任务中的每一个都被发送给同一个执行者！

17/02/17 11:09:12 INFO TaskSchedulerImpl: Adding task set 0.0 with 6 tasks
17/02/17 11:09:17 INFO CoarseGrainedSchedulerBackend$DriverEndpoint: Registered executor NettyRpcEndpointRef(null) (10.128.9.95:34059) with ID 1
17/02/17 11:09:17 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, 10.128.9.95, executor 1, partition 0, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 1.0 in stage 0.0 (TID 1, 10.128.9.95, executor 1, partition 1, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 2.0 in stage 0.0 (TID 2, 10.128.9.95, executor 1, partition 2, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 3.0 in stage 0.0 (TID 3, 10.128.9.95, executor 1, partition 3, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 4.0 in stage 0.0 (TID 4, 10.128.9.95, executor 1, partition 4, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 5.0 in stage 0.0 (TID 5, 10.128.9.95, executor 1, partition 5, PROCESS_LOCAL, 6095 bytes)

为什么？我该如何解决？问题是，此时，所有6个任务都在争夺同一个GPU，GPU无法共享。

共有1个答案

颛孙晗昱

2023-03-14

我尝试了参孙·沙夫里希特评论中的建议，但它们似乎不起作用。但是，我发现：http://spark.apache.org/docs/latest/configuration.html#scheduling 其中包括火花。如果我将其设置为 16，并将 spark.executor.cores 设置为 16，那么我似乎会为每个执行者分配一个任务。

类似资料：

控制ExecutorService每秒最多执行N个任务

问题内容：如何控制/限制提交给的任务？我已经发送了SMS消息，并且我需要控制执行程序，以便它最多只能以每秒N条消息的速度发送。问题答案：假设您为每个任务创建一条SMS消息，则可以使用ScheduleExecutorService。将任务添加到队列中，它们将以每秒10个的速度处理。
如何在Laravel中的每个响应上强制执行JSON响应？

我正在尝试使用Laravel框架构建REST api，我想要一种强制api始终使用JSON响应的方法，而不是手动执行以下操作：换句话说，我希望每个响应都是JSON。有什么好办法吗？更新：响应必须是JSON，即使在异常（如not found exception）上也是如此。
如何强制Spark执行代码？

问题内容：我如何强制Spark执行对map的调用，即使它认为由于其惰性求值而无需执行该调用？我已经尝试过使用map调用了，但是仍然不能解决问题。我的地图方法实际上将结果上传到HDFS。因此，它不是无用的，但Spark认为是。问题答案：简短答案：要强制Spark执行转换，您需要要求一个结果。有时，一个简单的动作就足够了。 TL; DR：好的，让我们回顾一下操作。支持两种类型的操作：
Apache Spark在一个执行器上运行一个任务

我有一个spark作业，它从数据库中读取数据，执行过滤、联合、2连接，最后将结果写回数据库。然而，最后一个阶段仅在50个执行器中的一个执行器上运行一个任务。我试图增加分区的数量，使用哈希分区，但没有成功。经过几个小时的谷歌搜索，似乎我的数据可能会但我不知道如何解决它。有什么建议吗？规格: < li >独立群集 < li>120核心 < li>400G内存遗嘱执行人： 30个执行器（4
每小时如何执行一项任务？

问题内容：我一直在开发Android应用程序，我每小时需要执行1个任务。我使用以下代码：它对我有用，但是我的客户告诉我该任务只能工作1次，而不能工作1个小时。我在哪里弄错了？请告诉我。谢谢。问题答案：根据您的代码，ALARM_PERIOD为1000L，作为重复间隔。因此，我怀疑警报会在每1000毫秒内触发一次。如果您设置每小时的重复间隔，则应为3600000L。并请注意，如果电话重新启动
如何限制每个项目的执行分析权限？

我们正在尝试设置SonarQube服务器（5.6），以便任何人都可以使用声纳扫描仪运行声纳分析，并将结果发布到SonarQube。然而，我们希望限制用户只发布特定项目密钥的分析，以防止弄乱现有的项目历史记录。我们在权限设置上玩了很久。让我们假设我们有一个项目密钥，一个组，一个组，一个组。所有的分析都是在用户是某个组织的成员的情况下发布的。除了执行分析，我们试图添加和删除它之外，某些组被授予了某些

Spark with GPU：如何强制每个执行器执行1个任务

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档