问题：

为什么 Spark 数据帧转换为 RDD 需要完全重新映射？

上官扬

2023-03-14

来自Spark源代码：

/**
   * Represents the content of the Dataset as an `RDD` of `T`.
   *
   * @group basic
   * @since 1.6.0
   */
  lazy val rdd: RDD[T] = {
    val objectType = exprEnc.deserializer.dataType
    rddQueryExecution.toRdd.mapPartitions { rows =>
      rows.map(_.get(0, objectType).asInstanceOf[T])
    }
  }

https://github.com/apache/spark/blob/master/sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala#L2972

映射分区可能需要与首先计算 RDD 所需的时间一样长。因此，这使得诸如

df.rdd.getNumPartitions

非常贵。假设< code>DataFrame是< code>DataSet[Row]，而< code>DataSet由< code>RDD组成，为什么需要重新映射？任何见解不胜感激。

暂时还没有答案

类似资料：

Spark:将RDD[String]转换为数据帧[duplicate]

我正在尝试将RDD[String]转换为数据框。字符串是逗号分隔的，所以我希望逗号之间的每个值都有一列。为此，我尝试了以下步骤：但我明白了：这不是这篇文章的副本（如何将rdd对象转换为火花中的数据帧），因为我要求RDD[字符串]而不是RDD[行]。而且它也不是火花加载CSV文件作为DataFrame的副本？因为这个问题不是关于将CSV文件读取为DataFrame。
将rdd转换为数据帧时的Spark重新分区性能

我是scala/sark世界的新手，最近开始了一项任务，它读取一些数据，处理数据并将其保存在S3上。我阅读了一些关于stackoverflow的主题/问题，这些主题/问题涉及重分区/合并性能和最佳分区数（如本例）。假设我有正确的分区数，我的问题是，在将rdd转换为数据帧时，对它进行重新分区是个好主意吗？下面是我的代码目前的样子：这是我打算做的（过滤后重新分区数据）：我的问题是，这样做是个好主意
spark scala转换数据帧/rdd

我有一个如下的CSV文件。我想把这个转化成下面。基本上，我想在输出数据帧中创建一个名为idx的新列，该列将填充与键=idx，value=“n”后面的行相同的值“n”。
在Spark/Scala中将RDD转换为数据帧

RDD是以数组[数组[字符串]的格式创建的，具有以下值：我想用模式创建一个数据帧：接下来的步骤：给出以下错误：
无法将RDD转换为数据帧

我正在尝试将RDD转换为数据帧，但失败并出现错误： org.apache.spark.SparkException：由于阶段失败而中止作业：阶段2.0中的任务0失败4次，最近一次失败：阶段2.0中丢失任务0.3（TID 11，10.139.64.5，执行器0）这是我的代码：
在Spark中将数据帧转换为映射（键值）

我在Spark中有一个数据框，看起来像这样：它有30列：只显示其中的一些！因此，我必须在Scala中将这个数据帧转换成一个键值对，使用键作为数据帧中的一些列，并为这些键分配从索引0到计数（不同的键数）的唯一值。例如：使用上面的案例，我希望在Scala中的map（key-value）集合中有一个输出，如下所示：我对斯卡拉和斯帕克是新手，我试着做这样的事情。但是，这不起作用。：/此操作完成后

为什么 Spark 数据帧转换为 RDD 需要完全重新映射？

暂时还没有答案

相关问答

相关文章

相关阅读

相关工具

相关文档