当前位置: 首页 > 知识库问答 >
问题:

Apache Spark:一个executor在Spark中可以容纳多少个分区?如何在执行器之间分配分区(机制)?

段干帅
2023-03-14
  1. 一个executor在Spark中可以容纳多少个分区?
  2. 如何在执行程序之间分配分区(机制)?
  3. 如何设置分区的大小。想知道相关的config参数
  4. executor是否将所有分区存储在内存中?如果不是,当溢出到磁盘时,它是溢出整个分区到磁盘还是部分分区到磁盘?5当每个执行器有2个内核,但执行器中有5个分区时

共有1个答案

易瀚漠
2023-03-14

不是很正确的看待方式。一个执行者什么都不持有,它只是工作。

>

  • 分区由分配给执行器的核处理。一个执行器通常有1个核心,但可以有超过1个这样的核心。

    一个应用程序有转换为一个或多个工作的操作。

  •  类似资料:
    • spark如何给一个执行器分配一个分区? 当我使用 1 个驱动程序和 5 个执行器在火花外壳中运行以下行时: 重新分区后,10个分区仍然位于原来的两个节点上(总共5个)。这似乎非常低效,因为5个任务在包含分区的每个节点上重复运行,而不是平均分布在节点上。在同一个rdds上重复多次的迭代任务中,效率低下最为明显。 所以我的问题是,Spark如何决定哪个节点具有哪个分区,有没有办法强制将数据移动到其他

    • 我有一张按年、月、日划分的蜂巢表

    • 我需要一些帮助来了解spark如何决定分区的数量,以及它们在executors中是如何处理的,我很抱歉这个问题,因为我知道这是一个重复的问题,但即使在阅读了许多文章后,我仍然不能理解我正在放上一个我目前正在工作的真实生活用例,以及我的Spark提交配置和集群配置。 我的硬件配置: < code>3节点计算机,总Vcores=30,总内存=320 GB。 我正在使用spark dataframe J

    • 在调试和故障处理的时候,我们通常有必要知道 RDD 有多少个分区。这里有几个方法可以找到这些信息: 使用 UI 查看在分区上执行的任务数 当 stage 执行的时候,你可以在 Spark UI 上看到这个 stage 上的分区数。 下面的例子中的简单任务在 4 个分区上创建了共 100 个元素的 RDD ,然后在这些元素被收集到 driver 之前分发一个 map 任务: scala> val s

    • 假设我正在从S3文件夹中读取100个文件。每个文件的大小为10 MB。当我执行<code>df=spark.read时。parquet(s3路径),文件(或更确切地说分区)如何在任务之间分布?E、 g.在这种情况下,<code>df</code>将有100个分区,如果spark有10个任务正在运行以将该文件夹的内容读取到数据帧中,那么这些分区是如何分配给这10个任务的?它是以循环方式进行的,还是每

    • 我有一个Spark 2.1.1作业,正在Mesos集群中运行。Spark UI显示32个活动执行器和RDD。getNumPartitions显示28个分区。但只有一个(随机)执行者在做任何工作,所有其他执行者都标记为已完成。我向执行器代码(stdout)添加了调试语句,只有一个执行器显示这些语句。整个管道的结构如下:获取ID列表- 这些是Spark二进制文件的配置设置:--drive-内存32g-