问题：

Spark:将RDD[String]转换为数据帧[duplicate]

凤伟泽

2023-03-14

我正在尝试将RDD[String]转换为数据框。字符串是逗号分隔的，所以我希望逗号之间的每个值都有一列。为此，我尝试了以下步骤：

val allNewData_split = allNewData.map(e => e.split(",")) //RDD[Array[String]]
val df_newData = allNewData_split.toDF()  //DataFrame

但我明白了：

+--------------------+
|               value|
+--------------------+
|[0.0, 0.170716979...|
|[0.0, 0.272535901...|
|[0.0, 0.232002948...|
+--------------------+

这不是这篇文章的副本（如何将rdd对象转换为火花中的数据帧），因为我要求RDD[字符串]而不是RDD[行]。

而且它也不是火花加载CSV文件作为DataFrame的副本？因为这个问题不是关于将CSV文件读取为DataFrame。

共有1个答案

芮朗

2023-03-14

如果所有数组都具有相同的大小，则可以使用应用onColiv将数组转换为类似的列：

val df = Seq(
  Array(1,2,3),
  Array(4,5,6)
).toDF("arr")

df.show()

+---------+
|      arr|
+---------+
|[1, 2, 3]|
|[4, 5, 6]|
+---------+

val ncols = 3

val selectCols = (0 until  ncols).map(i => $"arr"(i).as(s"col_$i"))

df
  .select(selectCols:_*)
  .show()

+-----+-----+-----+
|col_0|col_1|col_2|
+-----+-----+-----+
|    1|    2|    3|
|    4|    5|    6|
+-----+-----+-----+

类似资料：

在Spark/Scala中将RDD转换为数据帧

RDD是以数组[数组[字符串]的格式创建的，具有以下值：我想用模式创建一个数据帧：接下来的步骤：给出以下错误：
spark scala转换数据帧/rdd

我有一个如下的CSV文件。我想把这个转化成下面。基本上，我想在输出数据帧中创建一个名为idx的新列，该列将填充与键=idx，value=“n”后面的行相同的值“n”。
无法将RDD转换为数据帧

我正在尝试将RDD转换为数据帧，但失败并出现错误： org.apache.spark.SparkException：由于阶段失败而中止作业：阶段2.0中的任务0失败4次，最近一次失败：阶段2.0中丢失任务0.3（TID 11，10.139.64.5，执行器0）这是我的代码：
将数据帧转换为 rdd 的成本

我尝试使用以下代码获取数据帧的分区数量: 按照我的理解，dataframe通过元数据给rdd增加了一个结构层。那么，为什么在转换成rdd时要花这么多时间呢？
将Pandas数据帧转换为Spark数据帧错误

我正在尝试将熊猫DF转换为Spark one。测向头：代码：我得到了一个错误：
将rdd转换为数据帧时的Spark重新分区性能

我是scala/sark世界的新手，最近开始了一项任务，它读取一些数据，处理数据并将其保存在S3上。我阅读了一些关于stackoverflow的主题/问题，这些主题/问题涉及重分区/合并性能和最佳分区数（如本例）。假设我有正确的分区数，我的问题是，在将rdd转换为数据帧时，对它进行重新分区是个好主意吗？下面是我的代码目前的样子：这是我打算做的（过滤后重新分区数据）：我的问题是，这样做是个好主意

Spark:将RDD[String]转换为数据帧[duplicate]

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档