何时在Spark中使用map vs mapPartitions[重复]

宗乐池

2023-03-14

我知道map和map分区之间的区别，它们分别针对元素和元素的迭代器。

我什么时候应该用哪个？如果开销是相似的，为什么我要使用mapPartitions，因为map更容易编写？

共有1个答案

欧阳玺

2023-03-14

RDD。map将函数映射到RDD的每个元素，而RDD。mapPartitions将函数映射到RDD的每个分区。

map不会改变RDD中元素的数量，而map分区很可能会这样做。

另请参见此答案和对类似问题的评论。

类似资料：

在spark dataframe中使用case类的好处[重复]

在spark dataframe中使用case类的优势是什么？我可以使用“inferschema”选项或定义Structtype字段来定义模式。我引用了“https://docs.scala-lang.org/tour/case-classes.html“但无法理解除了使用反射生成模式之外，使用case类还有什么好处。
在Linux中使用重定向时如何使用ProcessBuilder

我想使用ProcessBuilder运行此命令：我尝试了以下方法：我使用的是如下：
在Apache Spark中使用Log4j2

对于Apache Spark日志记录，我尝试用Log4j2替换Log4j（到目前为止没有成功）。到目前为止，我已经设法将Log4j2用于我的应用程序日志，但我还想将它用于Spark内部日志（以避免同时存在两个不同的配置和框架）。
在spark中使用SQlcontext加载csv时出错

在此输入图像说明 error_------------------------------------------------------------Py4JJavaError Traceback（最近调用last）in（）---->1 sparkDF=sqlcontext.read.format('com.databricks.spark) /home/ec2-user/spark/python
如何在spark dataframe[重复]中用替换空字符串

如何在spark数据帧中用空字符串替换空字符串。我尝试了以下方法：它抛给我一个错误。
如何在android中使用retrofit设置计时器在android中使用retrofit2[重复]

有人能帮我用设置超时吗。