问题：

如何将地图的RDD转换为数据帧

归浩博

2023-03-14

我有地图的RDD，我想把它转换成数据帧，这里是RDD的输入格式

val mapRDD: RDD[Map[String, String]] = sc.parallelize(Seq(
   Map("empid" -> "12", "empName" -> "Rohan", "depId" -> "201"),
   Map("empid" -> "13", "empName" -> "Ross", "depId" -> "201"),
   Map("empid" -> "14", "empName" -> "Richard", "depId" -> "401"),
   Map("empid" -> "15", "empName" -> "Michale", "depId" -> "501"),
   Map("empid" -> "16", "empName" -> "John", "depId" -> "701")))

有没有办法转换成数据帧像

 val df=mapRDD.toDf

df.show

empid,  empName,    depId
12      Rohan       201
13      Ross        201
14      Richard     401
15      Michale     501
16      John        701

共有1个答案

宗政博文

2023-03-14

您可以轻松地将其转换为Spark DataFrame：

这是一个可以做到这一点的代码：

val mapRDD= sc.parallelize(Seq(
   Map("empid" -> "12", "empName" -> "Rohan", "depId" -> "201"),
   Map("empid" -> "13", "empName" -> "Ross", "depId" -> "201"),
   Map("empid" -> "14", "empName" -> "Richard", "depId" -> "401"),
   Map("empid" -> "15", "empName" -> "Michale", "depId" -> "501"),
   Map("empid" -> "16", "empName" -> "John", "depId" -> "701")))

val columns=mapRDD.take(1).flatMap(a=>a.keys)

val resultantDF=mapRDD.map{value=>
      val list=value.values.toList
      (list(0),list(1),list(2))
      }.toDF(columns:_*)

resultantDF.show()

输出为：

+-----+-------+-----+
|empid|empName|depId|
+-----+-------+-----+
|   12|  Rohan|  201|
|   13|   Ross|  201|
|   14|Richard|  401|
|   15|Michale|  501|
|   16|   John|  701|
+-----+-------+-----+

类似资料：

将数据帧转换为 rdd 的成本

我尝试使用以下代码获取数据帧的分区数量: 按照我的理解，dataframe通过元数据给rdd增加了一个结构层。那么，为什么在转换成rdd时要花这么多时间呢？
无法将RDD转换为数据帧

我正在尝试将RDD转换为数据帧，但失败并出现错误： org.apache.spark.SparkException：由于阶段失败而中止作业：阶段2.0中的任务0失败4次，最近一次失败：阶段2.0中丢失任务0.3（TID 11，10.139.64.5，执行器0）这是我的代码：
如何在scala中将RDD[GenericRecord]转换为数据帧？

我用Avro（序列化器和反序列化器）收到Kafka主题的推文。然后，我创建了一个spark consumer，它在RDD[GenericRecord]的数据流中提取推文。现在，我想将每个rdd转换为数据帧，通过SQL分析这些推文。有什么解决方案可以将RDD[GenericRecord]转换为数据帧吗？
如何将列表转换为地图的地图

我有这样一个代码：你能帮我完成代码库吗？
Spark:将RDD[String]转换为数据帧[duplicate]

我正在尝试将RDD[String]转换为数据框。字符串是逗号分隔的，所以我希望逗号之间的每个值都有一列。为此，我尝试了以下步骤：但我明白了：这不是这篇文章的副本（如何将rdd对象转换为火花中的数据帧），因为我要求RDD[字符串]而不是RDD[行]。而且它也不是火花加载CSV文件作为DataFrame的副本？因为这个问题不是关于将CSV文件读取为DataFrame。
将RDD[org.apache.spark.sql.Row]转换为RDD[org.apache.spark.mllib.linalg.Vector]

我对Spark和Scala相对较新。我从以下数据帧开始（由密集的双倍向量组成的单列）：直接转换为RDD将生成一个org实例。阿帕奇。火花rdd。RDD[org.apache.spark.sql.Row]：有人知道如何将此DF转换为org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.向量]的实例吗？到目前为止，我的各种尝试都没有成功。

如何将地图的RDD转换为数据帧

共有1个答案

相关问答

相关文章

相关阅读

相关工具

相关文档