问题：

火花：HDFS块与集群核心与rdd分区

越飞语

2023-03-14

我对spark有疑问：HDFS块vs集群核心vs rdd分区。

假设我正在尝试在HDFS中处理一个文件（例如块大小为64MB，文件为6400MB）。所以理想情况下它确实有100个分裂。

我的集群总共有 200 个核心，我提交了包含 25 个执行程序的作业，每个执行程序有 4 个核心（意味着可以运行 100 个并行任务）。

简而言之，我在rdd中默认有100个分区，100个内核将运行。

这是一个好方法，还是我应该将数据重新分区到200分区并使用集群中的所有核心？

共有1个答案

谈渊

2023-03-14

由于您总共有200个内核，因此根据您运行的工作负载类型，使用所有内核可以提高性能。

将 Spark 应用程序配置为使用 50 个执行器（即 Spark 可以使用所有 200 个内核）。此外，将您的火花拆分大小从 64 MB 更改为 32 MB。这将确保 6400 MB 文件将分为 200 个 RDD 分区，以便您的整个集群可以被它使用。

不要使用重新分区，因为它涉及到洗牌，所以会很慢。

类似资料：

19.2 核心与核心模块

19.2 核心与核心模块谈完了整个开机的流程，您应该会知道，在整个开机的过程当中，是否能够成功的驱动我们主机的硬件配备，是核心（kernel）的工作！而核心一般都是压缩文件，因此在使用核心之前，就得要将他解压缩后，才能载入内存当中。另外，为了应付日新月异的硬件，目前的核心都是具有“可读取模块化驱动程序”的功能，亦即是所谓的“ modules （模块化）”的功能啦！所谓的模块化可以将他想
火花流式DStream元素与RDD

本质上，我想对dStream中的每个元素应用一组函数。目前，我正在为pyspark.streaming.dstream使用“map”函数。根据文档，我的方法似乎是正确的。http://spark.apache.org/docs/latest/api/python/pyspark.streaming.html#pyspark.streaming.dstream map（f,preservesPart
火花RDD中的分区数

我通过指定分区的数量从文本文件创建RDD（Spark 1.6）。但它给我的分区数与指定的分区数不同。案例1 案例2 案例3 案例4 文件/home/pvikash/data/test的内容。txt是：这是一个测试文件。将用于rdd分区基于以上案例，我有几个问题。对于案例2，显式指定的分区数为0，但实际分区数为1（即使默认最小分区为2），为什么实际分区数为1？对于案例3，为什么在指定数量的
火花。将RDD拆分为批

我有RDD，其中每个记录都是int：我所需要做的就是将这个RDD拆分成批。即。制作另一个RDD，其中每个元素都是固定大小的元素列表：这听起来微不足道，然而，最近几天我很困惑，除了下面的解决方案之外，什么也找不到： > 使用ZipWithIndex枚举RDD中的记录：这将得到我所需要的，然而，我不想在这里使用组。当您使用普通映射Reduce或一些抽象（如Apache Crunch）时，它是微不
RDD火花质疑

我想了解以下关于火花概念的RDD的事情。 > RDD仅仅是从HDFS存储中复制某个节点RAM中的所需数据以加快执行的概念吗？如果一个文件在集群中被拆分，那么对于单个flie来说，RDD从其他节点带来所有所需的数据？如果第二点是正确的，那么它如何决定它必须执行哪个节点的JVM？数据局部性在这里是如何工作的？
火花聚结与执行器和核心数量的关系

我提出了一个关于Spark的非常愚蠢的问题，因为我想澄清我的困惑。我对Spark非常陌生，仍在努力理解它在内部是如何工作的。比方说，如果我有一个输入文件列表（假设1000），我想在某个地方处理或写入，并且我想使用coalesce将我的分区数减少到100。现在我用12个执行器运行这个作业，每个执行器有5个内核，这意味着它运行时有60个任务。这是否意味着，每个任务将在一个单独的分区上独立工作？回

火花：HDFS块与集群核心与rdd分区

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档